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Kapitel 1 


Symbole 


Symbolverzeichnis: 


N 
a...b 
#M 
P(M) 
An 


Menge der natürlichen Zahlen {0,1,2,...} 

Menge der ganzen Zahlen keZmita<sk<sb 

Zahl (€E NU{oo}) der Elemente der Menge M 
Potenzmenge ={A| A C M} der Menge M 

(n — 1)-dimensionaler Standardsimplex in R” 

also { (tı,...,„)eR* | 5 >20, +...+%=1} 
Bildmenge { f(x) |xe A} von Aunter f:X —>Y 
Urbildmenge {ze X | f(x) B} von Bunter f:X—Y 
Bild L(U) der linearen Abbildung L:U—>V 

Kern {ueU|L(u) =0} der linearen Abbildung L:U—>V 
Menge der (m x n)-Matrizen über R 

Menge der quadratischen (n x n)-Matrizen über R 

i-te Zeile (€ R”) der Matrix A € mäatmn(R) 

j-te Spalte (€ R”*) der Matrix A € matm.n(R) 

die transponierte Matrix von A € mat n(C) 

die konjugiert-transponierte Matrix von A € matm,n(C) 
Polynomring über dem Ring R in der Variablen « 
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Kapitel 2 
Vorbereitungen 


Dieses Skriptum soll eine Einführung in die Wahrscheinlichkeitstheorie (Sto- 
chastik) bieten. Diese tritt sofort in Erscheinung, wenn man Statistik be- 
treibt, aber nur Stichproben macht und keine Vollerhebung durchführt. Es 
stellen sich dann natürlich die Fragen: Was soll ich denn jetzt für einen 
Durchschnitt nehmen? und auch Woher weiß ich jetzt eigentlich, dass mein 
Durchschnitt auch für die gilt, die ich gar nicht befragt habe? Um ernsthaft 
Statistik betreiben zu können, braucht man also Stochastik. Und umgekehrt 
ist die Stochastik eine Fortführung der Statistik und damit nicht von dieser 
zu trennen. 

Wir werden sehen, dass eine Formulierung der Stochastik auf der Ebene 
von Mengen am übersichtlichsten wird. Sobald die erhobenen Merkmale nicht 
mehr diskret liegen, sondern kontinuierlich sind, stellt sich sofort die Frage, 
wie man über diese summieren kann. Die Antwort darauf ist in der Maß- 
und Integrationstheorie zu finden. Um die Stochastik weiter zu führen, muss 
man eben diese entwickeln. 

An der Schule genügt es zumeist, endliche Wahrscheinlichkeitsräume zu 
betrachten. Bei diesen gibt es natürlich keine Probleme mit Konvergenz und 
Kontinuität. Doch bereits beim Übergang von der Binomialverteilung zur 
Normalverteilung verlässt man die heile Welt der Laplace-Räume und begibt 
sich in den Sumpf der kontinuierlichen Wahrscheinlichkeitsräume. Doch wie 
der Statistiker Carter Alexander bemerkte: Einem Schulmeister nur wenig 
oder sehr oberflächliches Wissen über Statistik zu vermitteln ist so, als drücke 
man einem Baby eine Rasierklinge in die Hand. 

Deswegen sollte man den Übergang von der Statistik zur Stochastik und 
weiter von den diskreten zu den kontinuierlichen Wahrscheinlichkeitsräumen 
gut studieren. Wir geben zwar oft keine Beweise, sondern verweisen lediglich 
auf die Literatur, gehen aber formal exakt vor. Und das bedeutet, dass wir 
an einigen Stellen in die technischen Details einsteigen müssen. 

Die Kapitel sind nicht nach Schwierigkeit sortiert und müssen auch nicht 
von vorne nach hinten durchgelesen werden. Insbesondere die folgenden Vor- 
bereitungen können für Nicht-Mathematiker etwas abschreckend sein. Es ist 
für einige Leser sicherlich einfacher den ersten Abschnitt zu überspringen 
und direkt mit der Statistik einzusteigen. Erst wenn Statistik und Laplace- 
Räume keine Probleme mehr bereiten, sollten die allgemeinen Wahrschein- 
lichkeitsräume angegangen werden. Und viele Vorbemerkungen werden erst 
für diese benötigt. Wenn wir zuvor schon Notationen verwenden, die aus den 
Vorbereitungen stammen, so weisen wir extra darauf hin. 


Notation 2.1: Logische Vorbereitungen: 

Die Mathematik gewinnt ihre Stärke aus der Verwendung einer formalen 
Sprache, mit der nicht nur Begründungen sondern eindeutige Beweise ge- 
führt werden können. Die Aussagenlogik (die Verwendung von und, oder 
und nicht) ist sicherlich jedem bekannt. Genauso wichtig ist aber die Ver- 
wendung von Quantoren: so schreiben wir Ve € M : p(x) wenn die Aussage 
(x) für alle x aus der Menge M gilt und3xeE M : (x) steht dafür, dass 
es (mindestens) ein x € M gibt, so dass p(x) erfüllt wird. 

Bei Hypothesentests werden wir aber die Eintrittswahrscheinlichkeit der Ver- 
neinung der Hypothese betrachten. Wir wollen an dieser Stelle also kurz 
darauf eingehen, wie sich Quantoren unter Verneinung verhalten. Es ist klar, 
dass die verneinte Aussage nicht für alle ze M gilt (x) sich offenbar um- 
formulieren lässt, zu es gibt (mindestens) einxz € M so dass nicht p(x) gilt. 
Und genauso wird aus es gibt keinxz € M so dass p(x) gilt wiederum für alle 
ze M gilt nicht p(x), da p(x) ja nur wahr oder falsch sein kann (tertium 
non datur). Formal bedeutet das die Äquivalenz der Aussagen 








-VzreM:yle) => I3rzeM:-o(«) 
-3reM:yle) => VreM:-o(e) 





Als Beispiel betrachten wir das Cauchykriterium einer Folge (a„) < R. Die 
Folge (a„) ist eine Cauchyfolge, falls Ve > O3n. € NY/m > n.Vn>n.: 
Jan — am| < e. Also ist (an) keine Cauchyfolge, falls Je >0Vn. e N3m > 
n.In > ne: |an — Am| > E. D.h. es gibt ein e > 0 so dass es beliebig große 
Zahlenpaare (m, n) gibt, so dass am und a, auseinander liegen: |an—am| > e. 














Die zweite Frage auf die wir kurz eingehen wollen, ist die der Vertausch- 
barkeit der Quantoren. Offenbar vertauschen die Allquantoren Vz € M und 
Vye N untereinander, solange die Mengen M und N nicht von den Varia- 
blen x bzw. y abhängen. Dasselbe gilt für Existenzquantoren untereinander: 


VeeMVyeN:yl(ay) —& VyeNVxeM:ol(e,y) 
ze M3SyEeN:yl(a,y) > IJyeNI3reM:ole,y) 
ze MVyeN:yl(ay) = VyeN3reM:ol(e,y) 














Die letzte Formel besagt, dass man Allquantoren vor Fxistenzquantoren vor- 
ziehen darf (wenn es ein x gibt so dass für alle y gilt (x, y), dann hat auch je- 
des yein.z(y) = x so dass p(x, y) gilt). Die Umkehrung davon gilt aber nicht! 
Das ist z.B. der Unterschied zwischen gleichmäßiger und punktweiser Kon- 
vergenz von Funktionen fn : M — R. Gleichmäßige Konvergenz (fn) > f 
liegt vor, wenn Ve>03n,. e NVxe MVn>ne:|f(x) — fn(z)| < e. Bei 
der punktweisen Konvergenz (fn) — f haben wir lediglich Vee MVe> 
O3n. € NVYn > n. : | f(x) — fn(z)| < e. Es ist bekannt, dass die punkt- 
weise Konvergenz aus der gleichmäßigen Konvergenz (durch Vorziehen von 
Yxe M) folgt. Speziell für stetige Funktionen fn : M — R und kompakte 
Intervalle M < R gilt auch die Umkehrung, im allgemeinen ist das aber 
falsch. 








Notation 2.2: Algebraische Vorbereitungen: 

Bekanntlich besteht die Menge R” (für beliebiges 1<neN) einfach aus n 
Kopien von R und deren Elemente werden als n-Tupel x = (x1,Xa,...,%n) 
geschrieben. Dabei ist jedes «x € R (k € 1...n). Anders gesagt: R” ist 
das kartesisches Produkt von n Kopien von R. Wir schreiben die Elemen- 
te von R” wahlweise als Spalten- oder Zeilenvektoren, je nachdem welche 
Darstellungsform günstiger ist - einen inhaltlichen Unterschied gibt es dabei 
nicht. 


xı 
T2 
74; 725. ’ u) = P 
In 
Ist x = (21,23,...,%n) € R” ein n-Tupel, dann schreiben wir [x]; := x; für 


die ö-te Komponente von x. Es ist eine bekannte Tatsache, dass R” zum R- 
Vektorraum wird, unter der punktweisen Addition und Skalarmultiplikation. 
Sie wird sogar zur (kommutativen) R-Algebra (d.h. einem Vektorraum mit 
gewohnter Multiplikation) unter der punktweisen Multiplikation. D.h. sind 
x = (21,22,...,&n), Yy = (Y1,Y,:--,Yn) € R” und ist ae R, dann setzen 
wır: 


c+tYy ı— (21 + Yy1,292 + Yy2,...,n + Yn) 
zy := (Zıyı, 229, -.- , InYn) 
a2: 2 (ar) 


Während diese Konstruktionen absoluter Standard sind, fixieren wir auch 
eine Einbettung von R in R”, indem wir eine Zahl a € R stets auch als 
Diagonalelement a = (a,a,...,a) € R” auffassen: 


Ro R” : ar (a,a,...,a) 
Man bemerke, dass dies konsistent zur Konstruktion der R-Algebra R’ ist, 
da ax = (axı,axa,...,QX„) dasselbe Ergebnis liefert, egal, ob wir a € R oder 
a € R” betrachten. Schließlich ist auch bekannt, dass auf R” ein kanonisches 
Skalarprodukt existiert: 
zey := TLiyı tTay +... + LnYn 


Und als solches induziert das Skalarprodukt eine natürliche Norm und diese 
wiederum eine Metrik auf R”. Wir geben deren Konstruktionen der Voll- 


ständigkeit halber an: 
Veex = Jal+...+22 


le yl 


El 
d(z,y) 


Notation 2.3: Topologische Vorbereitungen: 

Auf dem Körper R existiert eine totale Ordnungsrelation <, die definiert 
wird, durch ihren positiven Kegel a>0 <> JreR:a=r?. Äquivalent 
dazu gibt es einen multiplikativen Betrag, der definiert wird, durch: 





1 füra>O 

sgn(a) := 0 füra=0 
-1 füra<0O 

ae a fürü<a 

Zu -a füra<o0 


Bekanntlich sind die reellen Zahlen vollständig und daher besitzt auch jede 
nach oben beschränkte Teilmenge von R ein Supremum. D.h. ist X C R 
eine nicht-leere (X # B) Teilmenge, mit: 3m € Rso dass Vx €e X gilt x < m, 
dann gibt es ein (eindeutig bestimmtes) se R mit 





(1) s ist eine obere Schranke von X:Vre X: <s 
(2) s ist minimal unter diesen: VmeRgitVeeX:z<m = s<m 


Dieses se R wird Supremum von X genannt, geschrieben als s := sup(X). 
Analog besitzt jede nicht-leere, nach unten beschränkte Teilmenge X C R 
eine größte untere Schranke, die als Infimum bezeichnet wird. Man könnte 
die obigen Eigenschaften analog angeben oder kurzerhand inf(X) = -sup(—-X) 
verwenden. Wir wollen aber jeder Teilmenge X C R ein Supremum und In- 
fimum zuordnen. Dazu ist es notwendig die reellen Zahlen um zwei Symbole 
zu erweitern, zu: 
RUf{x,-oo} 


Nun erweitern wir die Ordungsrelation, Addition und Multiplikation (so gut 
es geht) auf diesen erweiterten Zahlenbereich. Man beachte, dass die er- 
weiterte Ordnung < weiterhin total ist, aber die algebraischen Operationen 
Definitionslücken lassen: RU { oo, —oo } ist kein Körper /Ring mehr 


VaeRUI-oo} : a<m 
VaeRU!{w} : -w<a 
VaeRU!{w} : a+x:=@ 

VaeRUI-oo} : a+(-m) := -m 

VaeRUf{+oo}\{0} : aoo :=sgn(a)oo 
VaeRUf{+to}\{O} : al-oo) := -sgn(a)oo 








Dies erlaubt nun die Einführung von Supremum und Infimum für beliebige 
Teilmengen X der reellen Zahlen. Wir definieren: 


00 fürX =® 
sup(X) := 00 für AmeR:VzreX:2z<m 
sup(X) fürX ZOundJmeR:VeeX:r<sm 
oo fürX =9 
inf{X) := =. fur imeR VeeXim SE 
inf{X) fürX ZdDundJmeR:VzreX:m<ı 














Wir erweitern nun die Ordnungsrelation < von R auf R”. Man beachte, 
dass dabei aber nur eine partielle Ordnung entsteht (z.B. sind (0,1) und 
(1,0) unvergleichbar). Seien also allgemeiner a = (a1,Q2,...,@n) und b = 
(b1,ba,...,6n) € (RUf+oo})”, dann schreiben wir: 





a<b :=—> aı<bı und... und a„<bn 


a<b :=—> arı<bı und... und a, <bn 


Vorsicht: diese Notation ist nützlich, aber a < b ist hier nicht länger äquiva- 
lent, zua <b.oder a = b. Beispielsweise ist (0,0) < (0,1) aber es gilt weder 
(0,0) < (0,1) noch (0,0) = (0,1). Und damit können wir dann schließlich 
die Quader definieren: 





a,b := !xze (RuU!+o})"Ja<xzund«e<b} 
a,b := !xze (RuU!+o}"Ja<xunde<b} 
lab] := {ze (RuUl+o}"Jla<zundz<b} 
lad = {ze (RuUl+o}h"Jla<zunde<b} 


Definition 2.4: Folgen und Reihen: 

Wir wollen kurz die Begriffe Folge und Reihe wiederholen: Eine (reelle) 
Folge a ist einfach eine Abbildung a: N— R. D.h. jeder natürlichen Zahl 
n wird eine reelle Zahl a, := a(n) zugeordnet. In Anlehnung an n-Tupel 
schreibt man die Folge dann auch als (a„) := a. Wir sagen die Folge (an) 
konvergiert gegen den Grenzwert gER, falls 





Ve>0:3n.€ N sodassVn>n.:|g-@al|<e 


Dabei muss man nicht jeden Wert e > 0 betrachten, sondern es genügt 
wiederum e = 1/m für beliebig große m € N. Die Vollständigkeit von R be- 
deutet gerade, dass eine Folge bereits dann konvergiert, wenn sie das Cauchy- 
Kriterium erfüllt (das den Grenzwert g nicht benötigt): 





Ve>0:3n.€N so das Vm,n> ne: |am — An| <eE 


Wenn der Grenzwert g existiert, ist er eindeutig und wir schreiben (a„) — 9. 
Die meisten Folgen divergieren jedoch, d.h. haben keinen Grenzwert. 

Man kann auch Folgen in beliebigen metrischen Räumen (X,d) definie- 
ren, indem man den Abstand |g — a„| verallgemeinert, zu d(g, an). Dies gilt 
insbesondere für R”. Aber Vorsicht: es gibt zahlreiche metrische Räume, in 
denen Folgen, die der Cauchy-Bedingung genügen, keinen Grenzwert haben 
müssen. Das bekannteste Beispiel ist X = ®. 

Ist a= (an) < Reine reelle Folge, dann kann man auch beginnen über 
die Folgeglieder zu summieren. In diesem Fall erhält man eine Folge (s„) der 


Partialsummen 
n 
Er — ) a; 
i=0 


Wir sagen die Reihe über (a„) konvergiert, wenn die Folge (s„) der Partial- 
summen konvergent ist. In diesem Fall nennen wir den Grenzwert der Folge 
der Partialsummen den Grenzwert der Reihe und schreiben: 


=> = 9 falls «) —>9g 
i=0 i=0 


Das bekannteste Beispiel ist (q”) für eine reelle Zahl ge R. Man rechnet 
leicht nach, dass in diesem Fall 5, = (1 q"+!)/(1 -g) ist. Für |q| < 1 
konvergiert (9”*!) — O0 und damit (sn) — 1/(1-gq). Dies ist die harmonische 
Reihe 


i 


1 R 
! = —— für Je <1 
1=q 


M: 


ji 
o 


Definition 2.5: Summierbare Zahlenfamilien: 

Wir wollen nun den Begriff der Reihen auf beliebige Indexmengen verallge- 
meinern. D.h. wir betrachten eine beliebige nicht-leere Menge I # ® und eine 
Zahlenfamilie (Funktion) a: 1 — R. Wie zuvor schreiben wir a; := a(t) und 
(a;) := a. Ist I endlich, dann ist die Summe 


Ya e€e R 
iel 


wohldefiniert - da die Addition auf R kommutativ und assoziativ ist, kommt 
es nicht auf die Reihenfolge an, in der wir die Summe ausführen. Ist / un- 
endlich, müssen wir die Menge der endlichen Teilmengen von I betrachten: 


AN = {[ECI|#E<o} 


Mit dieser Bezeichnung sind die folgenden Aussagen über (a;) < R äquiva- 
lent (für einen Beweis und weitere Konsequenzen siehe [Barner, Fohr, Ana- 
lysis I, Kapitel 5.5]) 


(a) Die Menge {Y,c mai | EENT)} < R ist beschränkt 
(b) Die Menge { ;er lail | TE NT) } < R* ist beschränkt 


(c) Zu jedem e > O gibt es eine endliche Teilmenge E(e) € D(T) so dass 
für alle anderen endlichen Teilmengen Fe OT) gilt 


El)NF=9 — |)ul<e 
ieF 


(d) Es gibt ein ge R so dass es zu jedem e > 0 eine endliche Teilmenge 
E(e) € OT) gibt, so dass für alle anderen E e AT) gilt 


E() CE = Ia- al <e 
ieE 


Ist eine (und damit alle) dieser Bedingungen erfüllt, dann nennen wir (a;) 
summierbar. In diesem Fall ist der Grenzwert g in Aussage (d) eindeu- 
tig bestimmt. Für endliche / ist g natürlich die Summe der a; und daher 
definieren wir allgemein: 

Ya — ug 


viel 
Bemerkung: Wer glaubt, man könne auf diese Weise um die Integralrech- 
nung herum kommen, der täuscht sich leider: Ist (a;) summierbar, dann 
ist die Menge {ie I |a; #0} der von O0 verschiedenen Einträge in (a;) ab- 
zählbar. D.h. im Grunde hat man doch nur eine absolut konvergente Reihe 
vorliegen. Der Vorteil dieses Begriffes ist jedoch, dass er endliche Summen 
mit einschließt und man zuvor keine Abzählung fixieren muss. 


Pseudozufallszahlen: 

Für mathematische Experimente benötigt man oft große Mengen zufällig er- 
zeugter Zahlen, hat aber als Hilfsmittel nur einen deterministisch arbeitenden 
Computer. Das Problem besteht also darin Zahlenfolgen zu erzeugen, die ge- 
nauso zufällig wirken wie echte Zufallsergebnisse, sich aber berechnen lassen. 
Ein erstes Beispiel wäre die Zahlenfolge 3, 1, 4, 1, 5, 9... der Ziffern von 
rn. Diese ist wunderbar regellos, gleichverteilt (das ist noch unbewiesen, wird 
aber stark vermutet) und lässt sich gut berechnen. Leider ist zu dieser Art 
Probleme noch sehr wenig bekannt. Deswegen wollen wir hier 3 Verfahren 
vorstellen, die verlässlich solche Pseudozufallszahlen liefern: 


e Wir geben n € IN vor und betrachten die n-elementige Menge Z := 


Zn =1{0,1,...,n — 1}. Wählen wir nun zwei Parameter a und b und 
einen Startwert zu € Z dann definieren wir die Rekursionsvorschrift 
(keEN) 

zk+ı = (ax +b) modn e N 


Anders gesagt: 2, = LF(zo) unter der Abbildung L : Z, — 2, definiert 
durch L(x) := ax+b. Offensichtlich ist die damit generierte Zahlenfolge 
(21,22,23,...) < im(L) < Zn im Bild von Z enthalten und damit 
endlich. Damit wiederholt sich diese Zahlenfolge (ab einer gewissen 
Stelle) sogar periodisch und ist daher (ab dieser Stelle) gleichverteilt. 
Leider trifft diese Folge nicht alle Elemente von N (selbst wenn a und 
n teilferfremd gewählt werden), so dass diese Methode noch ziemlich 
mangelhaft ist. Dennoch kann sie manchmal ganz gut funktionieren: 
Das folgende Beispiel ist fürn = 17 mit L(x) = 3x + 1 berechnet 
worden. Als Startwert diente 29 = 2, dann ergibt sich die Zahlenfolge 


(2,7,5,16,15,12,3,10,14,9,11,0,1,4,13,6,2,...) 


XOR-Shift: Der folgende Algorithmus überzeugt durch seine einfache 
Implementierung und guten Ergebnisse. Die generierten Zufallsfolgen 
sind zwar wieder periodisch, doch liegt die Periodenlänge mit 21?® — 
1% 3.4 10° ziemlich hoch. Die generierten Zufallsvariablen liegen in 
Z.:=0...(2?? — 1) und verwenden die Binärdarstellung: Sind xo bis 
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£n € 2a = {0,1} dann schreiben wir 
R > 
( ges 2170)» = > u ed... (Dr = 1) 
i=0 


Auf dieser Menge Z3 müssen wir nun ein paar klassische Rechenope- 
rationen der Informatik einführen, den Links- und Rechts-Shift und 
die bitweisen and und xor-Verknüpfungen: Seien 0 < x,y < @+1 al- 
so 2 = (Xn:..21X%0) und y = (Yn...Yıyo)» deren Binärdarstellungen, 
und sei ke IN, dann 


shr(2,K) == int (3:) = WIDER 

shl(x,k) := (2*.x) mod + = (mr...2000...0)% 
z xor y := ((in + %Yn):.- (20 + Y0) (20 + Yo))b 

z and y := ((knYn):... (21 Yı) (20: Y0))b 


Dabei sind + und - die üblichen Operationen in Za. Der folgende Algo- 
rithmus wurde http://www.jstatsoft.org/v08/il4/paper entnommen: 
er beginnt mit 4 vorgegebenen 32-bit Zahlen 2, € Z:=0...(2°” - 1), 
wobei k € 0...3, die nicht alle gleichzeitig 0 sein dürfen. In jedem 
Schritt k > 4 wird nun berechnet: 


t VE 24 Xor shr (244,15) 
2.3 2 180rshll 427,21)" xor ff xorshl(t,2)) 


Dann ist (zo, 21, 22, 23, 24, 25,...) die Folge der Zufallszahlen zum Keim 
(random seed) (zo, 21, 22, 23). Man kann diesen Algorithmus auch leicht 
mit nur 5 Speicherplätzen t, w, x, yund z programmieren, wobei z dann 
die jeweils nächste Zahl in der Folge der Zufallszahlen erhält: 


= w xor shr(w, 15) 
= % 


Yy 
z 


war Sc 
|| 


:= (zxorshl(z,21)) xor (t xor shl(t, 4)) 


Mersenne-Twister: dieser Algorithmus ist zwar etwas komplizierter, 
aber dafür sind viele gute Dinge darüber bewiesen: Die generierten 
Zufallszahlen sind gleichverteilt, die Periodenlänge ist mit 219937 — 1 
ziemlich groß und er besteht zahlreiche statistische Tests auf zufällige 
Verteilung. Er operiert ebenfalls auf der Menge Z := 0... (2°? —1) der 
32-bit Zahlen. Man beachte, dass diese als 8-stellige Hexadezimalzahlen 
dargestellt werden können, was wir im Algorithmus ausnutzen werden. 
Als Startwerte werden n = 624 echte Zufallszahlen yı bis mn € Z 
gewählt. Diese stammen idealer Weise aus echten Zufallsprozessen - 
Wetterdaten, radioaktivem Zerfall oder anderen Quantenprozessen. 
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Die Binärdarstellung von y, sei (yir ...yayl)o. Aus diesen generiert 
man dann sukzessive (für k > n) die weiteren Zahlen: 





hr := Yen — (Yen mod 2°) + (Ya-n+ı mod 2°) 
= (Ve a ERBE): n+1)b 
Y := Yk-227 Xor Shr(hr,1) xor ((h, mod 2) : 9908BODF) 


Um die Gleichverteilung sicher zu stellen modifiziert man die so gene- 
rierte Zahlenfolge (y;) ist aber noch - erst die Zahlenfolge (z;) wird als 
Zufallszahlen verwendet. Für k > 625 berechnet man 27, durch: 


x := y, xor shr(yr, 11) 
= x xor (shl(z,7) and 9D2C560) 
= y xor (shl(y,15) and EFC6000) 
% := zxor'shr(2,18) 
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Kapitel 3 
Kombınatorik 


Die Kombinatorik ist das Grundgerüst der endlichen Wahrscheinlichkeits- 
rechnung. Hierbei stellt man sich immer die Frage wie viele Möglichkeiten es 
gibt eine bestimmte Situation zu realisieren. Denn je mehr Wege zu einem 
Ort führen, desto höher ist die Wahrscheinlichkeit diesen Ort zu finden. Die 
Frage, wie viele verschiedene Elementarereignisse es gibt, ist also immer eine 
kombinatorische Frage. Doch um die verschiedenen Möglichkeiten sinnvoll 
abzuzählen brauchen wir zunächst wieder ein bischen Notation: 

Wir betrachten eine Menge mit 1 <n € N Elementen. Wenn wir eine 
lineare Ordnung auf dieser Menge einführen wollen, müssen wir ein kleinstes 
Element wählen. Im ersten Schritt gibt es dabei noch alle n Möglichkeiten. 
Nachdem das erste gewählt wurde, müssen wir das nächst größere Element 
wählen - wobei wir jetzt n— 1 Möglichkeiten zur Auswahl haben. Fährt man 
immer so fort, so ergeben sich n! Anordungen der n Elemente. Dabei ist die 
Fakultät n! von n definiert, durch: 


n! := #[o:1...n-1...n|o bijektiv } 
=, nee l)eir2+l 
Speziell für n = 0 setzen wir 0! := 1. Als nächstes betrachten wir wieder 


unsere Menge 1...n mit n Elementen. Wir wollen daraus eine Teilmenge I 
auswählen, die genau k Elemente enthält, wobei k € 0...n. Dazu müssen wir 
wieder mit einem ersten Element beginnen, wobei zunächst n Möglichkeiten 
bestehen. Im nächsten Schritt wählen wir wieder aus n — 1 Elementen und 
so fort. Doch da die Reihenfolge der Elemente in / keine Rolle spielt, liefern 
je k! verschiedene Ziehungen dieselbe Teilmenge I. Insgesamt finden wir die 
Binomialkoeffizienten 


() = SHTeihnl ek 


n n-1l n—-k+l 





a : 
n! 
klin k)! 
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Man beachte, dass diese Definition auch den Fall k = 0 einschließt, es ist 
(n) =1= (f): Des weiteren erfüllen die Binomialkoeffizienten eine berühmte 
Rekursionsformel, die der Grund für den binomischen Lehrsatz (a und b 
können Elemente eines beliebigen Ringes sein, für die ab = ba gilt) ist: 


“a z +6) 


(a+b)" = > (%) a 


k=0 
Dies kann verallgemeinert werden: es seien aı bis a, € R Elemente irgendei- 
nes kommutativen Ringes R und a = (aı,...,ar) € RF. Weiterhin betrach- 
ten wir einen sogenannten Multi-index & = (a1,...,ax) € IN”. Dann führen 


wir die folgenden Notationen ein (wobei n := |a|) 


al = at. +04 
a! := (aı!):...- (ar!) 
n\ nl 
Fe 
Va Ei 


Sind diese Bezeichnungen fixiert, dann gilt der polynomiale Lehrsatz (wobei 
die Summe über alle Multi-indices a € N" mit |a| = aı +... +0, = n läuft) 


(a+...+%)” = ), ()« 


lal=n 


Eine Beweisskizze findet man bei [Scheja, Storch, Lehrbuch der Algebra 814] 
und einen Beweis bei [Zeidler, Abstract Algebra, Proposition 1.37]. Nachdem 
wir die Fakultät und die Binomialkoeffizienten eingeführt haben, betrachten 
wir der Reihe nach die verschiedenen kombinatorischen Grundprobleme: 


1. Schalterstellungen: Wir haben n Schalter vorliegen. Jeder dieser 
Schalter besitzt k mögliche Stellungen. Wie viele Schalterstellungen 
sind dann möglich? Die Antwort liegt auf der Hand: n* viele. Dieses 
Problem kann auch so formuliert werden: Wie viele Möglichkeiten gibt 
es Worte mit k Buchstaben Länge zu bilden, wenn das Alphabet n 
verschiedene Zeichen kennt? Wieder n®. Noch eine Formulierung des- 
selben Problems: Wir haben eine Urne mit n nummerierten Kugeln. 
Aus dieser ziehen wir k Mal, notieren die Nummer und legen die Kugel 
zurück. Wie viele verschiedene Ziehungen gibt es? Wieder n#. 

2. Lottoziehung: Wir haben n nummerierte Kugeln in einer Urne. Aus 
dieser ziehen wir k Mal und legen die Kugeln nicht wieder zurück (son- 
dern in der Reihenfolge der Ziehung vor uns hin). Wie viele mögliche 
Ziehungen gibt es? 





n(n-1)(n-2)...(n-k+1) = - Se “(}) 
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Ein wichtiger Spezialfall ist der Folgende: Wollen wir die n Kugeln 
umordnen, so können wir dies tun, indem wir eine nach der anderen 
ziehen, bis alle n Stück gezogen wurden. D.h. es ist k= n und damit 
gibt es n! mögliche Anordnungen (Permutationen) der n Kugeln. 


. Lottoauswertung: Beim Lotto werden die Kugeln danach entspre- 
chend der Reihenfolge ihrer Nummern sortiert, d.h. die Reihenfolge 
der Ziehung geht verloren. Je k! verschiedene Lottoziehungen ergeben 
also ein und dasselbe Lottoergebnis. Entsprechend finden wir die fol- 
gende Zahl möglicher Lottoergebnisse für k aus n Kugeln: 


n ei n-—1l n—-k+l 
k) 1 2 Eu k 


Dieses Problem lässt sich auch so formulieren: Wir haben n numme- 
rierte Kugel in Urne 1. Aus dieser Urne 1 ziehen wir k Mal (ohne Zu- 
rücklegen) und legen die gezogene Kugel in eine zweite Urne 2. Dann 
gibt es wieder (7) Möglichkeiten Urne 2 zu füllen. 





. Zweikugelordnung: Wir haben N Kugeln gegeben, n weiße und m = 
N — n schwarze. Wie viele Arten gibt es diese Kugeln anzuordnen 
(d.h. in eine Reihe zu legen)? Die Antwort lautet: 


N\ _ {rn+m 
Me 
Begründung: wir schreiben die Nummern 1 bis N auf die Kugeln. Es 
gibt N! Möglichkeiten die nummerierten Kugeln anzuordnen. Wischen 
wir die Nummern jetzt wieder weg, so spielt es aber keine Rolle mehr, 
in welcher Reihenfolge die weißen (bzw. die schwarzen) Kugeln unter- 
einander liegen. Je n! für die weißen und (N — n)! für die schwarzen 
Anordnungen sind also identisch. D.h. die N! Anordnungen der num- 


merierten Kugeln reduzieren sich auf N!/(n!(N - n)!) = (N) Anord- 
nungen für die unnummerierten Kugeln. 


. Kugelverteilung I: Wir haben n nummerierte Kugeln und k Urnen 
vorliegen. Wir wollen nun die Kugeln so auf die Urnen verteilen, dass 
in die erste Urne aı Kugeln kommen, und ... und in die k-te Urne a; 
Kugeln kommen (n = |a| = aı+@2+: +0). Wie viele Möglichkeiten 


gibt es das zu tun? 
n\ n! 
[07 aılasl-.... ar! 


Begründung: Es gibt n! Möglichkeiten die n Kugeln anzuordnen. Die 
ersten | kommen in Urnel,...., die letzten &, kommen in Urne k. Die 
Anordnung innerhalb der Urnen ist aber egal. D.h. wir müssen durch 
aı! (für Urne 1), und... und durch ax! (für Urne k) dividieren. 
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6. Kugelverteilung II: Wir haben n identische Kugeln und k Urnen 
gegeben. Wir wollen diese Kugeln irgendwie auf die Urnen verteilen. 
Wie viele verschiedene Verteilungen gibt es? 


n+k-—1 
) 
Begründung: Wir führen eine günstige Art ein, die Verteilungen zu co- 
dieren: eine weiße Kugel o codiert eine der n Kugeln, und eine schwarze 
Kugel e codiert eine Trennwand. Zum Beispiel kodiert o oe e o folgen- 
de Situation: es gibt 3 Kugeln und 3 Urnen. Die erste Urne enthält 2 
Kugeln, die zweite Urne ist leer und die dritte Urne enthält eine Kugel. 
Wir haben also n weiße Kugeln und (bei k Urnen) m = k— 1 schwarze 
Kugeln zur Codierung. Nach (4) gibt es genau (""”*) solche Codes, 
De 
n 


also ( Verteilungen. 


7. Häufigkeitsverteilungen: Wir haben eine Urne mit n nummerierten 
Kugeln. Aus dieser ziehen wir k Mal (mit Zurücklegen) und notieren 
die Häufigkeiten, wie oft welche Nummer gezogen wurde. Wie viele 
Häufigkeitsverteilungen gibt es? 


n+k-1 
“. 
Begründung: Zu jeder Kugelnummer nehmen wir eine Urne. Und wir 
stellen einen Sack mit k gleichartigen Bällen bereit. Wir ziehen nun 
eine Kugel aus der Urne, legen sie wieder zurück und tun dafür einen 
Ball aus dem Sack in die Urne der gezogenen Kugel. Das Ganze machen 
wir k Mal. Die Zahl der Bälle in den Urnen gibt also die Häufigkeits- 
verteilung an. Dazu haben wir aber k identische Bälle auf n Urnen 
verteilt. Und nach (6) gibt es dabei Kar) Möglichkeiten. 


Bemerkung 3.1: Stirling’sche Formeln: 
Für große Werte von n lässt sich die Fakultät n! recht gut annähern, durch: 


n\n i 1 
n! = (i+em) (*) 2rn mit Sen 


Wendet man diese Formel auf den Binomialkoeffizienten an, so erhält man 
für große Werte von n und kleine Werte von k die folgende Formel: 


n 1 n® n —1 1 
—. 1 Nn— £ i mi Su T Pros 
() ( i k) ck kl (nk) \Un-k ” 11x en 11x 


Sind hingegen sowohl n, als auch k groß, so kann man auch k! annähern zu: 


() ze An AN FE =; 


mit ee 2 An 2 
llk(n-k)+n de lin 
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Beispiel 3.2: Geburtstagsproblem: 
Als Beispiel eines kombinatorischen Problems stellen wir uns folgende Frage: 
Wie hoch ist die Wahrscheinlichkeit, dass unter einer Gruppe von n Personen 
mindestens 2 am selben Tag (Datum ohne Jahr) Geburtstag haben? Sei p die 
gesuchte Wahrscheinlichkeit, dann ist g = 1 - p also die Wahrscheinlichkeit 
des Ereignisses: alle n Personen haben an verschiedenen Tagen Geburtstag. 
Der Einfachheit halber ignorieren wir Schaltjahre, und nehmen an jeder 
Tag komme gleich häufig als Geburtstag vor. Dann ist dies ist eine äquivalen- 
te Formulierung der Lottoziehung (2) oben: Sei T = 365 die Anzahl der Tage 
eines Jahres. Für die erste Person gibt es 7’ Möglichkeiten, wann sie Geburts- 
tag hat, für die zweite Person bleiben noch 7’ — 1 Möglichkeiten, da eine ja 
schon vergeben ist, und so weiter. Da jeder Tag mit Wahrscheinlichkeit 1/T 
als Geburtstag vorkommt, haben wir also die folgende Wahrscheinlichkeit q 








T T-1 T-n+l 7! (h) 
q ZZ — ee. 0.1.0. — — 


USE 7 M(T-n! T\n 


Und wendet man die Stirling’sche Formel auf T! und (T—n)! an, dann lässt 
sich die gesuchte Wahrscheinlichkeit p recht genau annähern, durch: 


T T+0.5—n 
 1- 
Jay) 
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Kapitel 4 


Eindimensionale Statistik 


Beispiel 4.1: 
Ein (sechsseitiger) Würfel wird 50 mal geworfen und die Ergebnisse - welche 
Zahl wie oft gefallen ist - notiert. Es ergibt sich folgende Tabelle: 





Augenzahl | Anzahl Würfe | relative Häufigkeit 
1 9 18 % 
2 10 20 % 
3 8 16 % 
4 7 14 % 
B) 7 14 % 
6 9 18 % 








Die geläufigste Kennzahl, die angibt, in welchem Bereich diese Werte liegen, 
ist der Durchschnitt - das arithmetische Mittel. Dieses berechnet sich zu 


1 
5 9-1+10-2+8-3+47.447.5+9.6) = 3.4 


Das arithmetische Mittel sagt zwar um welche Zahl sich die Werte gruppie- 
ren, aber noch nichts über die Streuweite der Werte. Dies leistet eine andere 
Kennzahl: die Varianz. Für diese berechnet man den Durchschnitt der qua- 
dratischen Abweichungen der Werte von dem Mittelwert: 


1 


>, 9:24°+10-1.4°48-0.40°47:0.6°47:16°+49:26°) = 3.08 


Durchschnitt und Varianz repräsentieren also die Position und die Breite 
dieser 50 Würfelergebnisse in kompakter Form. Bevor wir auf die geome- 
trische Interpretation dieser Werte eingehen, sollten wir zunächst allgemein 
betrachten, was wir gerade getan haben: 
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Definition 4.2: 

Sei 5 eine beliebige Menge, genannt der Merkmalsraum, und si l<ne 
IN eine natürliche Zahl. Dann nennen wir ein n-Tupel x = (zı,...,2n) € 
5” eine Stichprobe vom Umfang n. Und für ein s € $ bezeichnen wir die 
absoluten Häufigkeiten n(s) und relativen Häufigkeiten h(s) von s in x: 


ne) Seren 
ar ss ") 


Ist $ < Reine Teilmenge der reellen Zahlen, dann definieren wir weiterhin 
das arithmetische Mittel A(x), die Varianz V (x) und die Standardab- 
weichung o(x) der Stichprobe x durch: 


Alt) s= 53 
i=1 


ve) = Im - Aw) 
i=1 


V(x) 


Q9 
rn 
=) 
— 
| 


Bemerkung: In dem obigen Beispiel ist also $=1...6 die Menge der mögli- 
chen Würfelergebnisse, x sind die Würfelergebnisse (in Reihenfolge) und die 
Tabelle gibt die absoluten und relativen Häufigkeiten in x an. Offenbar ge- 
nügen diese für die Berechnung des arithmetischen Mittels und der Varianz. 


Proposition 4.3: 

Seil<neN eine natürliche Zahl und x € R” eine Stichprobe vom Umfang 
n über R. Wir verwenden die Bezeichnungen aus (4.2) und Konventionen, 
wie sie in (2.2) gegeben wurden. Dann gilt: 


(i) Das arithmetische Mittel A: R" > R: x > A(z) ist eine lineare 
Abbildung und ist ae Reine reelle Zahl, so gilt weiterhin 


Ala) = 


V (a) 
V(e+a) = V(x) 


(ii) Bezeichnet S:= {x; |iel...n} C R.die (endliche) Menge der ver- 
schiedenen Werte, die in der Stichprobe x vorkommen, dann können 
das arithmetische Mittel und die Varianz über die relativen Häufigkei- 
ten berechnet werden, vermöge: 


Al). = N, h(a)s 
ses 

V(z) = ),hs)s’ - Aa)? = Ala?) - A(z)? 
ses 
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(ii) Das arithmetische Mittel ist die beste Approximation von x € R” 
durch eine einzige Zahl z € R gemessen in der natürlichen Norm: 


Ie- A) = mintle-F|| TER} 


Die Standardabweichung misst dabei den Abstand von x € R” zu dem 
arithmetischen Mittel A(xz) € R” auf der Raumdiagonalen: 


oz) = le A| 


1 

= 
Bemerkung 4.4: 
Die Eigenschaft (4.3.ii) des arithmetischen Mittels besagt also, dass A(x) 
gerade die orthogonale Projektion des Punktes x € R” auf die Raumdiago- 
nale A(t) := t1 (mit 1 ::= (1,1,...,1) € R”) ist. Die folgende Abbildung 
illustriert dies im Fall von n = 2 Dimensionen: 













































































MatheGrafix.de 








Dies liegt einfach daran, dass das arithmetische Mittel definiert wurde, als 
A(z) = (ze1l)/(l1e1). Und nach unserer Konvention wird die Zahl A(x) ja 
als Punkt A(x)1 auf der Raumdiagonalen interpretiert. Hier sei nur erwähnt, 
dass der Median Z(zx) ebenfalls eine orthogonale Projektion ist: Dabei wird 
der Abstand aber nicht in der 2- sondern in der 1-Norm gemessen. Woll- 
te man die absolute Abweichung minimieren, wäre das zugehörige Lagemaß 
nicht der Durchschnitt, sondern der Median. Näheres dazu findet sich in 
[Zeidler, Algebraic Statistics, auf www.wuala.com/zeidlerweb]. 
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Definition 4.5: 
Sei wieder $ = { sı, 82,...,Sm } eine endliche Menge und < eine totale Ord- 
nung auf $. Die Nummerierung der s, sei so gewählt, dass gilt 


51 < 52 < ... < Sm 


Sei weiterhin x € $” für einen Stichprobenumfang 1 < ne N. Der Ein- 
fachheit halber schreiben wir n, := n(s)) bzw. h) := h(s)) für die absoluten 
bzw. relativen Häufigkeiten. Dann definieren wir weiterhin die kumulierten 
absoluten N, bzw. relativen Häufigkeiten H, durch 


NE 
Ss 


N, = 


S 
Il 
u 


NE 
Ss 
| 
| 
& 


H, >= 


5; 
Il 
u 


Der Vollständigkeit halber setzen wir auch No := O0 und Ho := 0. Sei nun 
je1...3, dann definieren wir das j-te Quartil von x als denjenigen Wert 
5» für den die kumulierte, relative Häufigkeit erstmals über j/4 steigt: 


Q;l&) := sp wobei p = min{ € 1...m| i<m,} 


Das zweite Quartil wird auch Zentralwert oder Median genannt, wir schrei- 
ben dafür auch Z(x) := Qa(x). Würde man die x; der Reihe nach (aufstei- 
gend) sortieren, so wäre Z(x) der Wert in der Mitte (links). 


Beispiel 4.6: 

Wir betrachten wieder unsere Würfelwürfe zu Beginn des Kapitels. Hierbei 
ist die p-te Augenzahl s, = p gerade die Zahl p selbst. Wir ergänzen die 
Tabelle also um die kumulierten Häufigkeiten: 





||| A | 
1.3 .9..).0.18-] 0.18 
2 |10 | 19 | 0.20 | 0.38 
3 | 8 | 27 | 0.16 | 0.54 
4 | 7 | 34 | 0.14 | 0.68 
5 | 7] 41 | 0.14 | 0.82 
6 | 9 | 50 | 0.18 | 1.00 














Wir sehen, dass 0.25 erstmals für s, = 2 erreicht wird, es ist also Qı(z) = 
2. Genauso wird 0.50 erstmals für s, = 3 und 0.75 erstmals für p = 5 
überschritten. Es sind also Z(x) = 3 und Q3(x) = 5. Die Quartile lassen sich 
recht übersichtlich in einem Box-Diagramm darstellen: 
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aM FH 0 a 
5 ® 
rn >) 

20 ; 
S 0 

a) 4-1 ----- a 

Ss -------- --- -- -- -- -- - -- - - -- - - -- 


Bemerkung 4.7: 

Sind die niedrigen Werte häufiger, als große Werte, spricht man auch von 
einer links-steilen. Verteilung. Ein Beispiel dafür ist etwa die Vermögensver- 
teilung in Deutschland, oder - noch extremer - auf der Welt. Überwiegen 
hingegen die hohen Werte, spricht man von einer rechts-steilen Verteilung. 
Welche Art von Verteilung vorliegt, erkennt man anhand der Lage der Quar- 
tile zueinander und zum arithmetischen Mittel: 

links-steile Verteilung | rechts-steile Verteilung 
Z(xz) < A(x) Az) <Z(«) 
Z(&) < 3(Qı(&) + Qs(&)) | 3(Qıle) + Qs(a)) < Ze) 





h links-steile Verteilung h rechts-steile Verteilung 





Wir wollen nun ein Maß für die Ungleichheit einer Verteilung einführen. Das 
bekannteste Maß dieser Eigenschaft ist der Gini-Koeffizient. Dieser wird zwar 
nicht an der Schule unterrichtet, ist aber insbesondere bei Wirtschaftswis- 
senschaftlern sehr beliebt. Wer Statistik betreiben möchte, kommt also an 
diesem Begriff nicht vorbei, so dass wir hier eine Konstruktion dieser Kenn- 
zahl geben möchten: 
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Definition 4.8: Konzentrationsanalyse: 
Sei x € R” ein Datensatz bestehend aus positiven Zahlen x; > 0. Wir 
bezeichnen die verschiedenen Werte unter den x; mit s;, d.h. 


= 1315323... 38m } = Te E Rr 


Wir nehmen an die x, und die s; seien aufsteigend sortiert, d.h. es gelte 
1 <Xo <.- <a und sı < s2 < --- < Sm. Dann definieren wir die 
folgenden Größen (für j€ 1...m): 





x = nAla) = 8% = Ynls)si 

k=1 i=1 
nls)si _ hlsi)si 
Ma. Se 
I 1 J 

ie — >45) = Ki n)si 
i=1 i—1 
I 1 I 

A, 3= he) 2, nlsı) 
i=1 i=1 


Speziell für j = 0 bezeichnen wir noch Lo := 0 und Ho := 0. Dabei nennen 
wir die H, die kumulierten relativen Häufigkeiten der s;. Dabei gilt stets 0 < 
L; < H; < 1. Verbinden wir die Punkte (H; | L;) nun im Koordinatensystem 
so entsteht die Lorenzkurve L von «. Diese ist also eine Abbildung der Form 
L: [0,1] — [0,1], gegeben durch 





L(H) = x (d=-H5)+ La wohba hi <SH<H, 


Damit ist L(H) eine Kurve, die unter der Diagonalen H > H durchhängt. 
Die Größe des nach unten hängenden Bauchs der Kurve nennen wir den 
Gini-Koeffizienten G(z) von z: 


1 
else | H— L(H)dH 
= Eye i+ Li- 1) 
i=1 


Dig n+1 
= im" 
nX 7 





Da der Bauch aber maximal die Fläche 1/2 annehmen kann, haben wir die 
Fläche noch mit 2 multipliziert, um eine Kennzahl G(x) € [0,1] zu erhalten. 
Dabei interpretieren wir Werte von G(zx) = 0 bis 0.25 als gute Gleichvertei- 
lung und Werte von G(x) = 0.4 bis 1 als starke Ungleichverteilung. 
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Beispiel 4.9: 


() 


(i) 


(ii) 


Haben alle gleich viel - also e(n) := (a,a,...,a) € R” für irgendeine 
positive Zahl a > 0, dann beträgt der Gini-Koeffizient G(e(n)) = 0. 


Hat einer alles, also s(n) := (0,0,...,0,a) € R” wobei wieder a > 0 
beliebig ist, dann nimmt der Gini-Koeffizient den Wert G(s(n)) =1- 
1/n an. Insbesondere gilt also G(s(n)) > 1 fürn > . 


Angenommen in Deutschland gäbe es 10 Haushalte und das Gesamt- 
vermögen der Haushalte sei auf 100 Einheiten normiert. Dann sähe die 
Vermögensverteilung in Deutschland etwa folgendermaßen aus: 


O<O<I<SI<S2<A<I<IS<21<AT 





Wir haben also n = 10, m = 8 und die Zahlenpaare (H; | L;) betragen 
hintereinander weg: (0.2 | 0), (0.4 | 0.02), (0.5 | 0.04), (0.6 | 0.08), (0.7 | 
0.17), (0.8 | 0.32), (0.9 | 0.53) und (1,1). Die Lorenzkurve demonstriert 
die Ungleichverteilung eindrucksvoll: 











0 01 02 03 04 05 06 07 08 09 1 


Lorenz-Kurve (unten) der Vermögensverteilung in Deutschland, 
die Fläche zwischen den Kurven ist der halbe Gini-Koeffizient G 


Der Gini-Koeffizient dieser Verteilung berechnet sich damit zu G = 
0.68 und obwohl dieser Wert damit eine sehr starke Ungleichverteilung 
anzeigt, gehört Deutschland damit noch zu den Nationen mit eher 
gemäßigter Ungleichverteilung. 
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(iv) Wir wählen zwei Zahlen a < b € R und betrachten die Binomi- 
alverteilung mit 1 < m € N Stufen. D.h. wir betrachten die Da- 
ten x € R” (mit n = 2”) bestehend aus den verschiedenen Werten 
S={s|ie0...m} wobei s; := a””‘b‘ genau n; mal in x vorkommt, 
mit n; = ( 


m 
er — msi = (a+b)"” 
i=0 


N 





zZ 
|| 

IM- =1# IM: 
|| 





9m 
Sm 
ne. Du 
je 
De nis _ ke laP® Br 
u (a+b)m 


I 
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Man beachte, dass im Gegensatz zur Definition oben die Zählung bei 
0 beginnt, d.h. der erste Knick der Lorenzkurve liegt bei (Zo | Ho). 
Eine kurze Rechnung zeigt dann, dass sich der Gini-Koeffizient dieser 
Verteilung berechnen lässt, durch: 


x d; 
2, | 2.8 
j=0 \0Si<j 
d; = hy -U = U _ (ar dm - gman-ij) 
\ JE (2a + 2b)” 


Satz 4.10: 

Sei x € R” eine sortierte Liste von positiven Zahlen O<xı <---<z, und 
a > 0 eine echt positive Zahl. Dann ist der Gini-Koeffizient von x invariant 
unter der Streckung mit a und wird bei der Verschiebung um «a verringert: 


Glax) = G(«) 


G(z+.a) 


l 

= 

= 
| 
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Kapitel 5 
Zweidimensionale Statistik 


Bisher haben wir nur eindimensionale Daten betrachtet - wo sie liegen und 
wie weit sie streuen und wie Ungleich sie verteilt sind. Oft sind aber gerade 
die Zusammenhänge zwischen Daten interessant. In diesem Kapitel wollen 
wir also Methoden vorstellen, wie man den Zusammenhang zwischen zwei 
verschiedenen Merkmalen herausarbeiten kann. Als Beispiel betrachten wir 
den Zusammenhang zwischen beruflicher Ausbildung und Beschäftigungs- 
verhältnis. Eine Umfrage in Deutschland im Jahre 2013 unter 10000 reprä- 
sentativ ausgewählten Bürgern im Alter von 15 oder mehr Jahren hätte in 
etwa folgendes Ergebnis gezeigt: 








Ausbildung | arbeitslos | atypisch | angestellt | selbstständig | Summe 
ohne 312 977 1216 178 2683 
Lehre 330 610 4303 656 5899 
Studium 46 447 725 200 1418 
Summe 688 2034 6244 1034 10000 

















Ein atypisches Beschäftigungsverhältnis ist befristet, Leiharbeit, in Teilzeit 
oder geringfügig. Im Gegensatz dazu bezeichnet angestellt ein festes Anstel- 
lungsverhältnis. Die absoluten Zahlen sind immer etwas schwer zu fassen, 
deswegen ist es leichter die relativen Häufigkeiten zu analysieren: 








Ausbildung | arbeitslos | atypisch | angestellt | selbstständig | Summe 
ohne 31% 98% 12.2 % 1.8 % 26.8 % 
Lehre 3.3 % 6.1% 43.0 % 6.6 % 59.0 % 
Studium 0.5 % 4.5 % 73% 2.0 % 142% 
Summe 6.9 % 20.3 % 62.5 % 10.3 % 100 % 

















Hier sieht man sofort die Arbeitslosenquote, die 2013 bei nur 6.9% lag (weil 
diese Zahl die vielen atypischen Beschäftigungsverhältnisse versteckt). Inter- 
essant ist es damit beispielsweise die Arbeitslosenquote der Akademiker zu 
vergleichen. Diese lag bei nur 


46 
h(arbeitslos | Studi = — 8 32 
(arbeitslos | Studium) 8 3.2% 
Ein weiteres Beispiel: 26.8% der Befragten hatten keine abgeschlossene Be- 
rufsausbildung (dies würde ähnlich auch für ein Alter ab 25 gelten)! Unter 
den atypisch Beschäftigten ist die Quote derer ohne Berufsausbildung aber 
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noch deutlich höher: 


977 
h(ohne Berufsausbildung | atypisch) = a0: © 48.0% 


Definition 5.1: 

Es seien $ = [sı,...,s,} und T = {tı,...,t, } zwei beliebige endliche 
Mengen. Sei ferner x € ($ x T)” eine Stichprobe vom Umfang 1<ne N 
aus dem Merkmalsraum $S x T, dann bezeichnen wir die absolute und die 
relative Häufigkeit n(s,t) bzw. h(s,t) des Paares (s,t)€E $Sx T durch 


nie rel. est 
h(s;t) = ae) 


n 


Für se S und te T bezeichnen wir zudem die absoluten und relativen 
Randhäufigkeiten der Stichprobe x, mit 


nase) 2= > n(s,t) 


teT 


n(+,t) := > n(s,t) 


ses 


h(s,+) := >, h(s,t) = 


teT 


h(+,t) := >, h(s,t) — Re) 


n 
ses 


er 
o 
+ 





EEBe- 





Unter der bedingten Häufigkeit von s € $ unter der Bedingung t € T (und 
umgekehrt) verstehen wir die folgenden Quotienten (sofern möglich): 








.. nst) _ hst) 
h(s|t) := 
h(t|s) := n(s,t) _ hist) 


n(s,+) h(s,+) 


Als Maß für die Unabhängigkeit der Werte definiert man die mittlere qua- 
dratische Kontingenz C‘(x) und die korrigierte Kontingenz C*(x) der 
Stichprobe x, durch (wobei u := min{u,v}) 





S 2 
a) = DM a ‚Hhl41)) 


seSteT h(+, e) 


en ar = E: 


Auf den Begriff der Unabhängigkeit zweier Größen werden wir später noch 
genauer eingehen. Da wir aber zumeist mit numerischen Größen zu tun ha- 
ben, müssen wir uns nicht auf das Auswerten von Häufigkeiten beschränken, 
sondern können versuchen einen funktionalen Zusammenhang zwischen x 
und ye R” zu finden. Dazu dienen die folgenden Begriffe: 


= 
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Definition 5.2: 
Sind x € R” und y € R” zwei n-Tupel reeller Zahlen, dann definieren wir 
deren Kovarianz o(x | y) und Korrelation r(x,y) durch 










1 n 
o@ly) = 2 Aw) (m -AQ)) 
i=1 
_ 1Iam-Al) yv-AY) _ o(@|y) 
ww az a 
y ı . P 
i positive Fläche 
* = gleichläufiger 
+ Zusammenhang 
AN 






&|y) negative Fläche 
= gegenläufiger 


Zusammenhang 


y,-A(y) % 


AK) 


Proposition 5.3: 

Wir verwenden wieder die in (2.2) eingeführten Notationen. Seien x und 
ye R” zwei n-Tupel, wobei 1<ne NundaeR eine Zahl. Dann ist die 
Kovarianz o:R" x R”"— R eine symmetrische Bilinearform, für die gilt: 


olaly) = 0 
o(z|x) = o(x)* 
olw|y) = Alay) = Al) Aly) 


Wir nehmen nun weiterhin an, x und y seien zentriert, d.h. es gelte A(x) = 
0 = A(y). Ist nun eine (n x n)-Matrix T € mat„(R) gegeben, dann gilt 


oTz|y) = o(2|T”y) 


Insbesondere ist die Varianz zentrierter Variablen invariant unter unitären 
Transformationen. D.h. ist T unitär (das bedeutet T-! = T*), dann gilt: 


YviTz) = Vie) 
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Parameter-Fitting: 

Eine der Hauptaufgaben der Statistik ist es die beste Abschätzung für Pa- 
rameter in mathematischen Modellen realer Vorgänge zu liefern. Wenn man 
beispielsweise den Verlauf des Luftdrucks p in Abhängigkeit der Höhe h über 
dem Meeresspiegel beschreiben möchte, dann führt eine klassische Betrach- 
tung zu einer Abhängigkeit der Form p(h) = poe”°" für irgend welche Para- 
meter po und a. Um diese Werte zu bestimmen, müsste man Messungen des 
Luftdrucks in verschiedenen Höhen durchführen. Wir haben also Meßwerte 
(h;, pi) zur Verfügung und sollen daraus po und a so ermitteln, dass der unter 
diesen Werten berechneten theoretische Luftdruck poge”*"“ möglichst genau 
mit dem gemessenen Luftdruck p; überein stimmt. Wir wollen uns nun also 
dieser Aufgabe stellen: 


Proposition 5.4: Methode der kleinsten Quadrate 

Es sei S eine beliebige Menge, 1 < m,n € IN und wir betrachten weiterhin die 
Messwerte x = (21,...,in) € S” und y= (yı,...,Yn) € R”. Sei schließlich 
noch zujedemi € 1... m eine Funktion fi; : $ — R gegeben. Dann definieren 
wir die folgende (n x m)-Matrix 


fılzı) ml) 


Die transponierte Matrix von F' nennen wir F*. Dann ist F*F eine symme- 
trische (m x m)-Matrix, die explizit geschrieben werden kann als 


Ba v2 Dar) 
i,jel...m 


k=1 


Schließlich sei a ein m-Tupel a = (a1,a2,...,Am) € R’*, mit dem wir die 
Näherungsfunktion fa und die Abstandsfunktion d definieren, durch 


fa: SR: zo) file) 
il 





n 


d: R">R:ar >, (falzr) =4R)> 
k=1 


Man beachte, dass dabei stets fa(zr) = |Falr ist, mit anderen Worten gilt 
Fa = fa(zt) := (faltı),:-:, fa(tn)) € R”. Wenn nun d ein Minimum in a 
annimmt, dann gelten notwendiger Weise die Gauss’sche Normalengleichun- 
gen 
F*Fa = F*y 

Und in diesem Fall ist y— fa(z) L im(F). Schließlich wenn kn(F) = 0 ist 
(was m < n voraussetzt), dann nimmt d ein absolutes Minimum an und F*F 
ist invertierbar, so dass dieses Minimum auch berechnet werden kann, durch: 


az lR RP) Ry 
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Weiterhin: ist die Funktion (zum Beispiel) fı konstant, dann stimmen der 
Durchschnitt der gefitteten Werte fa(x) und der Durchschnitt der gemesse- 
nen y Werte überein, d.h. es gilt 


Alfal2)) = Aly) 


Und damit besteht die folgende Streuungszerlegung: Die Varianz der gemesse- 
nen Werte V(y) setzt sich zusammen aus der von x via f. auf y übertragenen 
Varianz V(fa(z)) und der Varianz V(u) der Abweichung u := y— fa(x) der 
Messwerte vom Fit. D.h. dann gilt auch 


VW) = Vlfal2)) + Vu) 


Der Anteil der Streuung von y, der durch Übertragung (vermöge f.) der 
Streuung von x erklärt werden kann wird Bestimmtheitsmaß b(x | y) des 
Fits genannt. Aufgrund der Streuungszerlegung ist dies immer eine Zahl 
zwischen 0 und 1. Wir bezeichnen sie mit 


2) 
ba |)" >= ya): 


Beweis: 

Da die Funktion R* — Rt : x ++ x? streng monoton steigend ist, genügt 
es das Abstandsquadrat q := d? anstelle von d selbst zu minimieren. Wenn 
q also ein Minimum in a hat, dann ist a notwendiger Weise ein kritischer 
Punkt von q (vergleiche [Barner, Flohr, Analysis II], Kapitel 14.4). D.h. für 
alle jel...m muss gelten 


2 
0 = d;g(a) = ö; Das 2%) „) 
k=1 —1 


— 2, (en) Das N) -) 
k=1 i=1 

— BAR = en 
ı=l k=1 k=1 


3 


m 


— ) Flan)yr a; )_, Filar) Fler) 


il k=1 


S 


Nach Definition der Matrix F gilt fr; = fi(zx) und daher ff, = filar). 
Führen wir die Matrixmultiplikation aus, dann erkennt man, dass der (i, j)- 
te Koeffizient von F*F sich folgendermaßen berechnet 


N finfes = > Fan) Fler) 
k=1 k=1 
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Da dieser Ausdruck symmetrisch in z und 7 ist, ist klar, dass F*F' eine sym- 
metrische Matrix ist. Zudem kommt dieser Ausdruck in unseren partiellen 
Ableitungen vor, so dass wir die obige Gleichung umschreiben können, zu 


[F* y], — > Filar) ur — Ya Frl; — >; [FF,,;« = [F'Fal, 
k=1 i=1 i=1 


Und da dies für alle j € 1...m gilt, erhalten wir daraus die Gauß’schen 
Normalengleichungen F*Fa = F*y im Sinne von m-Tupeln. 

Im Folgenden nehmen wir also an, es ist kn(F') = 0. Zunächst sieht man 
leicht ein, dass damit F*F ebenfalls injektiv sein muss: angenommen es wäre 
F*Fa=0, dann wäre auch 


0 = (F*Fala) = (Fa| Fa) = ||Fall? 


Wir hätten also auch || Fa||= 0 was wiederum Fa = 0 bedeutet. Nach Vorr- 
aussetzung für F folgt daraus aber a = 0. Damit ist F*F injektiv und somit 
(als quadratische Matrix) bereits bijektiv. Mithin können die Gauß’schen 
Normalengleichungen eindeutig gelöst werden, durch 


a MR 
Aus den Gauß’schen Normalengleichungen folgt unmittelbar auch die Be- 


hauptung y — fa(x) 1 im(F), denn ist q = F'p ein beliebiger Bildvektor 
pe R’”, dann rechnet man nach, dass gilt 


(aly = fale)) = (Fply- Fa) = p|F’y-F’Fa) = (p|0) = 0 
Sei nun weiterhin fı eine konstante Funktion, etwa fı(z) = k für alle x € S$. 


Dann betrachten wir das Tupel z := (1/k,0,...,0) € R’*. Offenbar gilt dafür 
Fz=1:=(1,1,...,1) € R” und damit rechnet man dann nach, dass 


Ay) - Alfa) = Aly- Sala) = Aly- Fa) = Z(y- Fa|1) 


1 1 

—(y-Fa|Fz) = -(F*y-F*Fa|z) = 0 

n n 

Insgesamt haben wir damit A(y) = A(fa(x)) gezeigt. Als nächstes beweisen 
wir damit die Hilfsaussage o(y | Fa) = V(Fa) durch eine direkte Rechnung 


o(y|falz)) = Aly: Jalz)) - Aly)Alfalz)) 
= 2 Dyefalre) - Aly)Altale)) 
k=1 
= Don Darfilar) - AWAUle)) 
k=1 i=1 
= 2 Ya). Klar) - AW)Allale)) 
k=1 


i=1l — 


R - Va [F*yl; - Ay)A(fala)) 
i=1 
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= -% a; [F* Fa]; — A(y)A(fa(&)) 
i=1 


= Va) Silzu) [Fa], - AW)ALela)) 
k=1 


i=1l = 


_ - Y\ [Fa], > aifiler) - AY)A(Sale)) 
k=1 i=1 


_ - faulen)? - Ay)Allale)) 
k=1 
= Altala)?) - Alla) Aa) = Vllala)) 


Und damit können wir dann schließlich die Aussage der Streuungszerlegung 
V(y) =V(falx))-V (u) [wobei u = y- fa(x)] beweisen. Wir rechnen einfach 
nach, dass (aufgrund der Linearität der Kovarianz in beiden Argumenten) 


Vu) =@ 


u: 


(u | u) — o(y zu Salz) | y- Fa(z)) 
(v|y) -2o(y | Jalz)) + olJalz) | Fa)) 
Vly) -2V (falz)) + Vlfale)) = Vly) - Vlfal®)) 














Als erste Anwendung wollen wir uns folgendem Problem widmen: wir be- 
trachten zwei Variablen x und y, zwischen denen ein Zusammenhang y = 
f(x) vermutet wird, wobei f € R/x] ein Polynom vom Grad m sein soll, 
d.h. f hat die Gestalt f(x) = am£”"+::'+a12+ao. Es werden n verschiede- 
ne Messungen gemacht, die die Wertepaare (x1,yı) bis (tn, yn) liefern. Die 
Frage ist nun, welche Abschätzung der Koeffizienten ao, aı Dis am von f die 
beste Übereinstimmung y; = f(x;) liefert: 


Satz 5.5: Polynomiale Regression: 
Wir betrachten die Potenzen ;:R>R:x > x (wobei i € 0...m) und 


weiterhin sei a = (a0, @1,...,4m) € R’"*! und wir bezeichnen 
1. 1 
2 
IH, 2 ch 


alt) = Ami” +... +01 + € Re] 


Seien nun x, und yk € R (wobei k € 1...n) so gegeben, dass zumindest 
m + 1 verschiedene x, darunter sind, d.h.m < #{z,.|kel...n}. Dann 
ist die folgende ((m+1)x (m+1))-Matrix F*F invertierbar und daher lässt 
sich die Gauss’sche Normalengleichung lösen 


n 
F’F = 3 >) 
k=1 


i,je0...m 


a= (FF)'Fy 
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Satz 5.6: Lineare Regression: 

Wir betrachten die Daten x = (21,232,...,2%n) und y = (y1,%2,:.:,Yn) € R” 
so dass es mindestens 2 verschiedene xx gibt, d.h. 2<#/!ı,.|kel...n}. 
Dann ist die Regressionsgerade g(x) = ax + b die am nächsten durch die 
Punkte (x;,y;) verläuft - d.h. die den folgenden Abstand 





dla,b). = > (ax +b- yr)” 


n 
k=1 
minimiert - eindeutig bestimmt und ihre Koeffizienten a und b können mit 
Hilfe der folgenden Formeln berechnet werden: 





b = Aly) -aAl) 


Und wenn wir die Abweichung der Näherung von den Messwerten bezeich- 
nen, mit ug := Yk — (ax, + b) dann ist das Bestimmtheitsmaß der linearen 
Regression gerade der Korrelationskoeffizient, d.h. es gilt 


V(ax +b) 


= TE 2 


be |y)? = 


ou) = VI-r@]yP-o(y) = 71a.) 


Bemerkung 5.7: 

Der Regressionskoeffizient r = r(x | y) ist ein Maß für den linearen Zusam- 
menhang zwischen den x; und den y;. Für große Beträge von r (sagen wir 
für |r| € [0.6,1]) beobachtet man eine lineare Abhängigkeit. Das Vorzeichen 
von r gibt an ob der Zusammenhang gleichläufig (r > 0: wenn x steigt, dann 
auch y) oder gegenläufig (r < 0: wenn x steigt, dann sinkt y) ist. Bei der 
Interpretation muss man dennoch vorsichtig sein: 


e Selbst wenn es einen klar erkennbaren Zusammenhang, etwa r = 0.9 
gibt, muss es keinen inneren Grund dafür geben. Ein lehrreiches Bei- 
spiel dazu: die Korrelation zwischen der Geburtenrate (in 17 europäi- 
schen Ländern) und der Zahl der brütenden Storchenpaare beträgt 
r = 0.62 (und mit p = 0.008 ist dies sogar statistisch signifikant). Je- 
doch ist der Schluss, dass Störche die Babys liefern nicht zulässig. Dies 
ist lediglich der Tatsache geschuldet, dass es in hochzivilisierten Län- 
dern sowohl weniger Babys als auch weniger Störche gibt [wir verweisen 
auf Robert Matthews, Storks deliver babies]. 
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e Und selbst wenn kein linearer Zusammenhang besteht, etwa r = 0, 
dann heißt dies nicht, dass gar kein Zusammenhang zwischen den Daten 
besteht. Betrachtet man beispielsweise die sieben Datenpaare (k,k?) 
für ke -3...3, so hängen diese offensichtlich funktional zusammen, 
unter f(x) = x?. Nur der lineare Zusammenhang der Daten besteht 
nicht - esist r = 0. Um den Zusammenhang aufzuspüren müsste man 
eine polynomiale Regression vom Grad > 2 durchführen. 


Anschaulich gesprochen zeigt die Zerlegung der Varianz, dass die Varianz 
von y in zwei Teile zerlegt werden kann: (1) aufgrund der linearen Beziehung 
yr= ax +b wird die Streuung der x auf y übertragen. Dies ist der erklärbare 
Anteil der Varianz von y. (2) die Varianz der Abweichung u, diese ist originär 
und kann nicht weiter erklärt werden. Und dar = o(ax+b)/o(y) der Anteil 
der erklärten an der gesamten Streuung ist, liefert r also eine Einschätzung 
für die Güte der Annäherung y®8 ar +b. 


Betrachten wir den Datensatz (x, y.) so ist es möglich eine Approximation 
der Form y = a,x + b, durchzuführen, aber ebenso eine Approximation der 
Form x = ayy + b,. Diese Koeffizienten werden also berechnet, durch: 


o(z | y)/o(y)” 
A(x) — a,A(y) 


dx 


br 


o(z|y)/o()’ a, 
Aly)—a,A(x) by 


Aufgrund der Symmetrie von o(x | y) ist damit aber klar, dass r? = a,a,. 
Will man nun y = a,0+b, und x = ayy+b, in das selbe Koordinatensystem 
einzeichnen, so müssen wir die zweite Gleichung umformen, zu y = x/a, — 
b,/a,. Die beiden Linien stimmen genau dann überein, wenn r = #1 und 
sie sind genau dann senkrecht, wenn r = 0 ist. Im allgemeinen kontrolliert r 
den Winkel & unter dem sich die beiden Regressionsgeraden schneiden: 





=] 2] 
lanla) — ut _ Pl. en 
Ar + Gy r o(x)’+o(y) 
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Kapitel 6 


Multivarıate Statistik 


In diesem Kapitel gehen wir auf ein paar Verallgemeinerungen der voran- 
gegangenen Methoden ein, die über die bisherigen Grundkenntnisse hin- 
aus gehen, die aber nicht fehlen dürfen, wenn man ernsthaft statistische 
Untersuchungen durchführen möchte. Im Einzelnen wollen wir auf höherdi- 
mensionale Probleme eingehen und für diese die Methoden der Kovarianz- 
matrix, der linearen Regression im n-dimensionalen Fall und die Faktoren- 
analyse erklären. Weitere Details dazu und die Beweise der hier gegebenen 
Sätze finden sich in meinem Online-Buch [Zeidler, Algebraie Statistics, auf 
www.wuala.com/zeidlerweb|, das aber noch in den Kinderschuhen steckt. 


Definition 6.1: 

Wir betrachten zwei beliebige (m x n)-Matrizen (1<m,ne N) X = (x; ;) 
und Y = (yi;) € matmn(R). Es bezeichne row;(X) (mit ie 1... m) die i-te 
Zeile und col;(X) (mit j € 1...n) die j-te Spalte von X. Dann definieren 
wir die arithmetischen Mittel von X als die folgenden Tupel: 


A(X) (A(colı (X)),...,Alcon(X))) € R” 
A*(X) := (Altowı(X)),.-.,Alrowm(X))) € R” 


Zur Abkürzung sei nun x; := col;(X) und y; := col,(Y) (mit i, jel...n), 
dann definieren wir ferner die Kovarianz-Matrix Y(X | Y) € mat„(R) von 
X und Y und die Varianz-Matrix V(X) = &(X | X) e mat„(R) von X 
als die folgenden quadratischen Matrizen: 


olzı|yı) ° olaı | yn) 
SPAR IN : i : 
lan |yı) °* olan | Yn) 
o(zı|xı) --- olzı|&n) 
V(X) = 
et, |). er |) 
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Beispiel 6.2: 

Wir betrachten eine Klasse aus 30 Schülern, die in 10 verschiedenen Fächern 
unterrichtet werden (z.B. Deutsch, Englisch, Mathematik und so weiter). 
Dann wäre die Matrix X, die die Noten (von 1 bis 6) jedes Schülers in allen 
Fächern enthält, eine (30 x 10)-Matrix: die ö-te Zeile bestünde aus den Noten 
von Schüler Nummer i, die j-te Spalte wären die Noten aller Schüler, die in 
Fach Nummer 5 vergeben wurden. 


Noten von Schüler 1 


Noten von Schüler 30 


Dann wäre A(X) das 10-Tupel der Notendurchschnitte der Klasse in den 
verschiedenen Fächern und A*(X) wäre das 30-Tupel der Notendurchschnit- 
te der verschiedenen Schüler der Klasse. 


Bemerkung 6.3: 

Man sagt die Datenmatrix X = (z1,...,2n) € (R”)” = matmn(R) ist 
zentriert, wenn A(X) =0 € R” gilt. Da A(X) = (A(zı),..., A(&n)) ist, 
bedeutet das ausgeschrieben gerade A(x;) = 0 für alle je 1...n. Man kann 
dies offenbar erreichen, durch X := (®1,..., En) mit Hei AG) R® 
Dann ist X zentriert und in anderen Worten lautet X gerade: 


ie Meere 


Und da weiterhin o(x; | x;) = (&; e £,;)/m gilt, erhalten wir trivialer Weise 
(nach Definition der Varianzmatrix V(X)) die Identität der Matrizen 


Proposition 6.4: 


(i) Wir betrachten beliebige 1< m, ne N und zwei (m x n)-Matrizen X 
und Y € mäatm.n(R). Dann gilt offenbar A(X*) = A*(X) € R” und 
für die (n x n)-Matrix D(X | Y) gilt weiterhin 


Z(X|Y) = Er |xX)* 


(i) Seien weiterhin a € R” und be R, dann betrachten wir die folgende 
Linearform L:R" > R: x aeı+b. Ist nun wieder X € mäatm,n(R.) 
eine reelle (m x n)-Matrix, dann bezeichnen wir 


L(X) := (L(rowiX),...,L(rowmX)) € R” 
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Und damit ist das arithmetische Mittel der transformierten Daten 
L(X) gerade wieder das mit L transformierte arithmetische Mittel 
A(X) der Ausgangsdaten, formal geschrieben 


(iii) Seinun x € R” und sei T € matmn(R) eine (mx n)-Matrix. Dann gilt 
die folgende Gleichung für das arithmetische Mittel von 7'x 


A(Tx) = A(T)ex 


Und ist weiterhin ye R” dann erhalten wir auch die folgende Formel 
für die Kovarianz: 


o(Tz|y) = —(Txey) - Ay): (AT) ea) 


1 
m 
(iv) Wir betrachten nun 1< m, n, pe N und die Matrizen X € matm,n(R) 


und T € mat„,p(R). Dann lässt sich das arithmetische Mittel von XT 
wie folgt berechnen: 


A(XT) = T’A(X) 


(v) Sei wieder 1<neN, wir betrachten zwei zentrierte (n x n)-Matrizen 
X, Y emat„(R) d.h. es ist A(X) =0 = A(Y). Sei T € mat„(R) eine 
weitere (n x n)-Matrix, dann gilt 


I(TX|Y) = ZX|T'Y) 


Insbesondere: Ist T unitär (d.h. es ist T-! = T*), dann ist die Varianz 
invariant unter der Transformation mit T': 


V(TX) = V(X) 


Vorsicht: Es ist verführerisch zu glauben, die Identität D(XT | Y) = 
(X | YT*) würde ebenfalls gelten. Diese gilt im allgemeinen aber 
nicht, sondern stimmt sogar nur in trivialen Fällen. 


Im vorangegangenen Kapitel haben wir den funktionalen Zusammenhang 
y= f(x) zweier reeller Variablen x und y € R betrachtet. Es schließt sich die 


Frage an, was passiert, wenn f von mehreren Variablen y = f(xı1,:..,n) 
abhängt. Wir betrachten hier aber nur den einfachsten Fall eines linearen 
Zusammenhangs, d.h. wir versuchen die Koeffizienten aı,...,@n undbeR 


Yy = arı +a3X%2+...+ An&n + b 


so zu finden, dass sie möglichst gut zu m Messwerten (x;,y) €R”x R pas- 
sen. Dabei bezeichnen wir &; = (2 1,...,i,n), d.h. x; wird in die i-te Zeile 
der Datenmatrix X eingetragen. Wie man die beste Schätzung der Koeffizi- 
enten a; und 5 erhält leistet der folgende 
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Satz 6.5: 
Wir betrachten die Daten (x;,y) € R" x R wobeii € 1...m und x; = 


(&i1y---,Xin) € R” sei. Damit definieren wir die m x (n+1) Matrix 
1 ... %ı ... 1 11 ... ln 
A = = : : 
1 ... Im ... 1 Lm,l ... LIm,n 


Mit Hilfe dieser Matrix A können wir die m verschiedenen Gleichungen 
aziı +... + Ankin+b = yı kompakt schreiben als A(b,a) = y, wobei 
natürlich a = (a1,...,@Qn) und y = (Yı,...,Ym) bezeichnet. Wenn nun 
(b,a) € Rx R” den folgenden Abstand minimieren 





m 
dtazb)) >= > (atiı+... + nliın +b- Y)” ist minimal 
i=1 


dann erfüllt (b,a) notwendiger Weise die Gleichung A* A(b,a) = A*y. Insbe- 
sondere wenn die (n+1) x (n+ 1) Matrix A*A invertierbar ist (z.B. wenn 
kn(A) = 0), dann können wir die Koeffizienten a € R" und be R minimalen 
Abstands berechnen, durch 


() = water 


a 


Bemerkung 6.6: 

Schreibt man das Gleichungssystem zu A*A(b,a) = A*y explizit aus, dann 
nimmt es die folgende Form an: Seien wieder (2,9%) = (&i1,---,2in,yi) € 
Rr+! wobei i € 1...m die empirischen Daten. Dann bezeichnen wir wei- 
terhin yalyın.:53 4, Und re ar ERT IE JE Lern Das 
heißt X; ist die (j+1)-te Spalte von A. Dann ist folgendes Gleichungssystem 
zu lösen: 


XıeXj ka XıeX, Xıel aı Xıey 
Ane‘ı  AneAn Anel An . Aney 
leXı --- 1leX„ m b ley 


Proposition 6.7: Faktorenanalyse: 

Wir betrachten eine zentrierte (m x n)-Matrix X € mat„n„(R), das heißt X 
hat die Form X = (&1,...,2n) € (R”*)” wobei A(x,;)=0fürallejel...n. 
Sei weiterhin D die (n x n)-Varianz-Matrix von X, das heißt % := V(X) = 
(1/m)X"X € mat„(R). Dann gelten die folgenden Aussagen: 


(i) Ist a = (aı,...,Qn) € R” irgend ein n-Tupel, dann lässt sich die Va- 


rianz der linear transformierten Werte Xa = aıtı + "+ An&n € R” 
berechnen vermöge der quadratischen Form 


V(Xa) = Saoa 
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(ii) Wir bezeichnen die Einheitssphäre im R” mit 5" := {ae R” |||al|=1} 
und betrachten die Varianz-Funktion v: 5" —> R:a V(Xa). Hat 
vin se S"” ein lokales Extremum (d.h. es gibt ein e > 0 so dass für 
alle a € 5” mit ||a — s||< e gilt v(s) < v(a) für ein lokales Minimum 
bzw. v(a) < v(s) für ein lokales Maximum), dann ist s notwendiger 
Weise ein Eigenvektor von D. 


(ii) Da % symmetrisch ist, gibt es eine Orthonormalbasis { tı,...,tn} < 
R” von R” bestehend aus Eigenvektoren t; von %. Wir bezeichnen die 
zugehörigen Eigenwerte mit A; € R, (d.h. es ist Dt; = A;t;) und die 
Transformationsmatrix mit T := (tı,...,t„) € mat„(R). Dann ist T 
offenbar unitär (d.h. es ist 7! = T*) und für jedes ae R” gilt 


V(Xa) = ‘a; 
i=1 


Insbesondere gilt O< V(Xt;) = X; und damit ist klar, dass S” unter v 
in ein Ellipsoid mit den Hauptachsen t; verformt wird: 


ae 5" 
Definition 6.8: 
Wir betrachten eine beliebige (mx n)-Matrix X € mat,„(R) und bezeichnen 


IV(Xa)|aeS”"} = ya 
i=1 





ihre Zentralisierung mit X. Sei ferner D die (n x n)-Varianzmatrix von X 


ea 


=“ 


Nun wählen wir eine Orthonormalbasis { tı,...,tn} < R” von R”, die aus 
Eigenvektoren von % besteht, und bezeichnen die zugehörigen Eigenwerte 
mit A1,...,An ER (d.h. Dt; = A;t;). Schließlich ordnen wir die Eigenwerte 
absteigend der Größe nach: 


AL = A ee De 


Ist nun ke 1...n eine Zahl, dann definieren wir die k-te Hauptkompo- 
nente von X als die folgende Linearkombination der x; j 


Xty e R” 


Beispiel 6.9: 

Zur Illustration geben wir ein (rein künstliches) Beispiel, bestehend aus zwei 
Eigenschaften, die bei 4 Individuen ausgewertet werden. Sagen wir, xı liefert 
die Werte xı = (3,3,4,2) und x2 = (6,7,5,6). Dann beginnen wir also mit 
der Datenmatrix 


DD PB ww 
D OUN OD 
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Zunächst wird die Datenmatrix zentriert: die arithmetischen Mittel betragen: 
A(zı) =3 und A(xza2) = 6. Indem wir diese von X abziehen erhalten wir 


0 
= 0 1 
on 1 


-1 0 


Mit Hilfe dieser zentrierten Matrix können wir die Varianzmatrix von X 
berechnen: % = V(X) = (1/4)X"X und dies führt auf 


1/2 -1 
Zr & 2 ) 
Das charakteristische Polynom einer (2 x 2)-Matrix ist bekanntlich c(A) = 
A? —trace(E)A+det(%) und dieses hat die Nullstellen Aı = 3/4 und Aa = 1/4. 


Die zugehörigen Eigenvektoren sind eı = (1,-1) und eg = (1,1) € R°. 
Indem wir diese Vektoren normieren finden wir die Transformationsmatrix 


. EP 

al) 
Also was bedeuten diese Eigenvektoren nun? Der Erste eı sagt uns, dass 
die Wertepaare (21,2) im wesentlichen durch den Wert xı — x2 bestimmt 
werden. Dieser Wert trägt 3/4 zur Varianz bei. Umgekehrt sagt uns der 
Zweite ea, dass der Wert eı + ea relativ konstant ist - er trägt nur 1/4 zur 


Varianz bei. Daher ist &ı + xa recht uninteressant und es ist der Wert 21-25 
an dem wir die 4 Individuen besser unterscheiden können. 


0 
— 1 —1 n il 
Xtı — 7; 9 und Xto = 7) 


= = 


OHM Oo© 
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Kapitel 7 
Laplace Räume 


Beispiel 7.1: 

Wir betrachten einen (idealen, sechsseitigen) Würfel. D.h. der Würfel hat 
für jede Zahl s € 1...6 die gleiche Wahrscheinlichkeit von 1/6 diese Zahl 
zu würfeln. Wir betrachten nun aber zwei Würfel, die zusammen geworfen 
werden. Die Würfel seien unabhängig voneinander (also nicht verklebt oder 
magnetisch oder so etwas). Dann hat jede Kombination von Würfelergebnis- 
sen (s,t) € (1...6)* die gleiche Wahrscheinlichkeit geworfen zu werden. Und 
da es 36 solcher Elementarereignisse gibt, beträgt die Wahrscheinlichkeit also 
konstant 1/36. Wir interessieren uns nun aber nicht für die einzelnen, spe- 
ziellen Würfelkombinationen (s,t), sondern für die Summe s +t der beiden 
Augenzahlen. Dann finden wir folgende Tabelle: 





s+t:/1/2/|3/4|516 
1 2|\3|415|6|7 
2 3|4|5I6[718 
3 415/6|71819 
4 s|6|7ı8| 9,10 
B) 6|7|8|19 [10111 
6 18.9|10|11|12 




















An dieser Tabelle sieht man, dass genau die Kombinationen (1,3), (2,2) und 
(3,1) die Summe 4 ergeben. Es besteht also die folgende Gleichheit 


ahe(l..6?|stt=4) = EI, 82, ED] 


Will man wissen wie hoch die Wahrscheinlichkeit für das Ereignis ist, mit 
zwei Würfeln die Augensumme 4 zu erreichen, muss man also die Einzelwahr- 
scheinlichkeiten der drei Elementarereignisse (1,3), (2,2) und (3,1) addieren 


3 

pistt=4) = pL)+P2 2421) = = 
Wir müssen also folgende Begriffe formalisieren: Das Ergebnis unseres Zu- 
fallsexperimentes (Werfen zweier Würfel) liegt in irgend einer Ereignismenge 
5. Jedes Elementarereignis s € $S hat eine gewisse Wahrscheinlichkeit p(s) 
einzutreten. Auf dem Freignisraum S lebt eine Zufallsvariable X: S — R. 
Diese ordnet jedem möglichen Ereignis ein Ergebnis zu, in unserem Beispiel 
war X(st)=s+t. 
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Die Wahrscheinlichkeit für das Ereignis, dass X = a € R wird, erhält man als 
Summe der Einzelwahrscheinlichkeiten p(s) aller Elementarereignisse s € S, 
für die X(s) = a gilt: 


PIX=a) = % x) 


X(s)=a 


Eine Stichprobe x = (X1,...,%n) € R” von X ist also die Liste der Ergebnis- 
se x; bei n-maliger Durchführung des Zufallsexperimentes. Sie liegt also in 
der Bildmenge der Zufallsvariablen. Ein zentrales Anliegen der Statistik ist 
es die zugrunde liegende Wahrscheinlichkeit aus einer Stichprobe zu schätzen. 


Definition 7.2: 

Wir nennen das Paar ($,p) einen Laplace Raum (oder ausführlicher einen 
Laplace’schen Wahrscheinlichkeitsraum) wenn $ #9 eine nicht-leere Menge 
ist undp: S — R eine summierbare Zahlenfamilie auf $ ist, für die gilt 


(1) VseS :pl(s)>0 
(2) Dsespls) = 1 


Und ist A C 5$ eine beliebige Teilmenge von S, dann definieren wir die 
Schreibweise (die Summe konvergiert, wegen der Summierbarkeit von p) 


PA) = Yo) e [0,1] 


seA 


Unter einer (reellen) Zufallsvariable auf ($,p) verstehen wir eine beliebige 
Abbildung der Form X : $S — R. Und ist ae R eine Zahl, dann definieren 
wir die Notationen 


pX=a) := piiseS|X(s)=a}) 
PX <a) := piiseS|X(s)<a}) 
pX>a) := piiseS|X(s)>a}) 


Bemerkung 7.3: 


e Der Begriff der Summierbarkeit wurde in (2.5) eingeführt. Wer damit 
noch hadert, der kann sich ohne weiteres auf endliche Mengen 5 be- 
schränken. In diesem Fall sind alle Summen endlich und man braucht 
keine Konvergenz zu betrachten. 


Aufgrund der Summierbarkeit muss die Menge T:= {se S|p(s) >0} 
der möglichen Ereignisse (für s& T ist p(s) = 0) abzählbar sein. D.h. es 
gibt eine surjektive Abbildung N — T, die die Abzählung der Elemen- 
te von 7’ ermöglicht. Daher ist es mit Laplace-Räumen nicht möglich 
Probleme zu modellieren, bei denen überabzählbar viele mögliche Er- 
gebnisse vorkommen können. 
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e \lan beachte, dass wir durch die eben eingeführte Notation von der 
Funktion p : $ — R zu einer Funktion p : P(S$) — R übergegan- 
gen sind. Dabei ist P($) die Potenzmenge von S, d.h. die Menge aller 
Teilmengen P(S) = {A|AC S$} von $S. Wir werden sehen, dass es 
unmöglich ist jeder Teilmenge von R ein vernünftiges Volumen zuzu- 
ordnen. Das bedeutet, dass wir für überabzählbare 5 nicht von jeder 
Teilmenge A C S$ eine Wahrscheinlichkeit p(A) angeben können. In 
späteren Kapiteln widmen wir uns dem Problem, wie man sich auf 
geeignete Mengen zurückziehen kann. 


e Pierre Simon Laplace (1749-1827) selbst hatte folgende Einsicht: ha- 
ben unter n Elementarereignissen $S = { sı,..., sn } alle dieselbe Wahr- 
scheinlichkeit einzutreten, dann ist die Wahrscheinlichkeit das Ereignis 
ACC $ zu erhalten gegeben, durch: 


HA Zahl günstiger Fälle 


De nn 0 Sohle Beleher Räl 








e Zum Begriff einer Zufallsvariablen ist folgendes zu bemerken: Führt 
man ein Zufallsexperiment aus (z.B: das Ziehen von n Losen aus einer 
Lostrommel), so erhält man ein n-Tupel (s1,...,sn) € S” von Zufalls- 
ergebnissen, etwa den gezogenen Losnummern. Jedem Ergebnis s; € 5 
wird dann ein Wert x; € R zugeordnet - etwa die Gewinnsumme des 
Loses. Es sind natürlich auch andere Wertebereiche als R denkbar, aber 
das ist jetzt unerheblich. A posteriori - also nach dem Experiment - 
ist das Ergebnis also ein n-Tupel x = (xı,...,2n) € R reeller Zahlen. 


Die Frage ist, wie wir das a priori - also vor der Durchführung des 
Experimentes - modellieren können. Da ist ja noch jedes s € 5 mög- 
lich, wir kennen nur die Wahrscheinlichkeit p(s), dass dabei s her- 
aus kommt. Man betrachtet daher ganze Abbildungen X :S — R, 
die jedem möglichen Ergebnis s € $ den daraus resultierenden Wert 
X(s) € R zuordnen. Bleiben wir beim Beispiel der Lostrommel: ha- 
ben wir die Gewinne x = (X1,...,%n) € R” gezogen, dann beträgt der 
durchschnittliche Gewinn einer Ziehung offenbar 


A(z) = 2 
i=1 


Die Wahrscheinlichkeiten p(s) sind dann bereits in der Ziehung x ent- 
halten. Wie sieht es aber a priori aus? Die Wahrscheinlichkeit das Los 
s € $ zu ziehen beträgt p(s), der Gewinn in diesem Fall wäre X(s). 
Also ist X (s)p(s) der anteilige Gewinn des Loses s. Um eine Schätzung 
für die Gewinnsumme zu erhalten, müssen wir über all die möglichen 
Ausgänge s € $ des Versuchs summieren. Diese Überlegung führt zum 
Begriff des Erwartungswertes E(X) von X, auf den wir später noch 
genauer eingehen werden 


E(X) = I, X(s)p(s) 


ses 
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Diese Abschätzung sagt natürlich nichts über den Einzelfall - die näch- 
ste Ziehung - aus. Erst wenn wir viele Ziehungen machen, wird sich 
A(x) dem Wert E(X) nähern. Und auch das nur, wenn wir immer 
denselben Versuch wiederholen - bei einer Ziehung von Losen ohne Zu- 
rücklegen ist das beispielsweise nicht der Fall. Ist der Hauptgewinn erst 
gezogen, kann er nicht nochmal gezogen werden, die Wahrscheinlich- 
keitsverteilung würde sich also in jedem Zug ändern. 


Proposition 7.4: Kolmogorov-Eigenschaften: 
Es sei (S,p) ein Laplace-Raum und A, BC S$ seien zwei beliebige Teilmen- 
gen von S. Dann gelten die folgenden Aussagen: 


(1) p(0) = 0 


Definition 7.5: 

Ist (S,p) ein Laplace-Raum und sind A und B C S$ zwei Teilmengen von 
5, wobei p(B) # 0, dann definieren wir die bedingte Wahrscheinlichkeit 
von A unter der Bedingung B, durch: 


p(ANB) 
p(B) 


Und die Ereignisse A, B C 5 heißen unabhängig, falls die folgende Ei- 
genschaft (c) erfüllt ist. Dazu äquivalent sind die Eigenschaften (a) (falls 
p(B) #0) und (b) (falls p(A) 0) 


(a) p(A | B) = p(A) 
(b) p(B | A) = p(B) 
(ec) pfAN B) = p(A) : p(B) 


Bemerkung 7.6: 

Man beachte, dass für allgemeine Teilmengen A, BC $ gilt: p(A | B)- 
p(B) = p(ANB). D.h. die Wahrscheinlichkeit für A und B setzt sich zusam- 
men aus der bedingten Wahrscheinlichkeit von A unter der Bedingung B und 
der Wahrscheinlichkeit für B selbst. Dies ist hilfreich, da es oft einsichtig ist, 
wie p(B) und p(A | B) lauten, aber p(ANB) direkt ist nur schwer abzusehen. 
Die bedingte Wahrscheinlichkeit ist sozusagen die Hintertür zu ’A und B’. 
Sei nun { S1,...,5x} < P(S) eine endliche Partition von S, d.h. es gelte 
$=S1U...US und fürizfjel...k sein ;NS;=® und p(S;) #0. 
Dann erhalten wir daraus den Satz von der totalen Wahrscheinlichkeit: 


p(A|B) = 


k 


p(A) = ),p(Al Si): P(Sı) 


i=1 
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Anschaulich gesprochen bedeutet das folgendes: Wir haben den Ereignis- 
raum S in verschiedene Fälle $ı bis S; untergliedert. Die Fälle dürfen sich 
nicht überschneiden und müssen alle Möglichkeiten ausschöpfen. Dann kön- 
nen wir die absolute Wahrscheinlichkeit p(A) für das Ereignis A zusammen- 
setzen durch die bedingten Wahrscheinlichkeiten p(A | $;) in den einzelnen 
Fällen und die jeweilige Wahrscheinlichkeit p(S;) unter der $; vorkommt. 


Zum 


Beweis: Da die 5; eine Partition von 5 bilden, sind die AN 5; eine 


Partition von A. Daher ist p(A) =), p(AN S;). In dieser Gleichung ersetzt 
man nur noch p(AN S;) = p(A | S;) - p($;) und schon ist man fertig. 


Beispiel 7.7: 


Der Begriff der bedingten Wahrscheinlichkeit ist die Übertragung der 
bedingten Häufigkeit in die Wahrscheinlichkeitstheorie. Wir erinnern 
an unser Beispiel zu Beginn von Kapitel 5: Die bedingte Häufigkeit 
arbeitslos zu sein unter der Bedingung ein Studium abgeschlossen zu 
haben war: Anzahl der arbeitslosen Akademiker pro Anzahl aller Aka- 
demiker. Das Verhältnis ist dasselbe, wenn wir statt der Anzahl die 
Häufigkeit nehmen. Also die Häufigkeit der Kombination A und B pro 
Häufigkeit von B. Führt man genügend Stichproben durch, dann geht 
die Häufigkeit aber in die Wahrscheinlichkeit über. Und deswegen ha- 
ben wir p(A | B) gerade definiert, als p von A und B pro p von B. 


Ihr neuer Kollege hat zwei Kinder, eines davon ist ein Mädchen. Wie 
groß ist die Wahrscheinlichkeit dafür, dass das andere Kind ein Jun- 
ge ist? Naiv würde man sofort 50% sagen. Eine genauere Betrachtung 
zeigt aber, das das nicht stimmt: Bei 2 Kindern gibt es 4 Möglichkeiten 
für deren Geschlecht: (w,w), (w,m), (m,w) und (m,m). Die Kombinati- 
on (m,m) können wir im Vorfeld ausschließen, da wir ja bereits wissen, 
das eines davon ein Mädchen ist. Es bleiben also die 3 Möglichkeiten 
(w,w), (w,m) und (m,w). In 2 dieser Fälle ist aber ein Junge darunter, 
nur in einem Fall sind beides Mädchen. Da alle 4 Fälle gleich wahr- 
scheinlich sind, erhält man: die Wahrscheinlichkeit, dass das andere 
Kind ein Junge ist, ist 2/3! 


Bei einer Spielshow wählt der Kandidat eines von 3 Toren A, B oder C. 
Hinter einem der Tore ist der Gewinn, zwei der Tore sind Nieten. Die 
Chance auf das richtige Tor zu tippen ist also 1/3. Nachdem der Kan- 
didat gewählt hat, öffnet der Showmaster ein drittes Tor - weder das 
gewählte, noch das mit dem Gewinn - und fragt "Wollen Sie jetzt doch 
das andere Tor nehmen?’ Was würden Sie tun? Denken wir nach: wenn 
Sie zuerst richtig gewählt hatten (= Bedingung richtig), dann müssen 
Sie das richtige Tor jetzt verlassen. Ihre Gewinnchance (= Ereignis 
Gewinn) ist in diesem Fall also gleich 0: 


p(Gewinn | richtig) = 0 
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Hatten Sie aber zuerst das falsche Tor gewählt (= Bedingung falsch), 
dann weichen Sie jetzt zwingend auf das richtige Tor aus (denn eine 
Niete verlassen Sie und eine Niete hat Ihnen der Showmaster gezeigt, 
es bleibt nur das Gewinntor). Ihre Gewinnchance ist in diesem Fall ist: 


p(Gewinn | falsch) = 1 


Die beiden Fälle richtig und falsch bilden offensichtlich eine Partition 
des Raumes S. Es gilt also der Satz der totalen Wahrscheinlichkeit: 


p(Gewinn | richtig) - p(richtig) 





PS mnD), =  Gm(talsch)- nelsch) 
se ee 


Wenn Sie sich umentscheiden steigt Ihre Gewinnchance also auf 2/3! 
Allgemeiner kann man diese Spiel mit n Toren spielen. Dann sind die 
bedingten Wahrscheinlichkeiten wieder p(Gewinn | richtig) = 0 und 
(weil 2 Nieten entfallen) p(Gewinn | falsch) = 1/(n — 2). Insgesamt 
steigt Ihre Gewinnchance beim Umentscheiden auf: 

1 1 n—1l n—1l 1 


Gewi —= (- | . = en, 
r( un) n n-2 n n-ı2 n 





Wir werden uns später noch sehr viel intensiver mit dem Begriff der Un- 
abhängigkeit beschäftigen. Dass es dafür nicht reicht für drei Ereignisse 
A, Bund C <C S$ zu fordern, dass pf[ ANBNC) = p(A)-p(B):p(C) ist 
wollen wir aber schon jetzt geben. Sei $=1...8 unter der Gleichver- 
teilung p(s) = 1/8 für alle s € $. Dann betrachten wir A := {1,2,4,6 } 
und B=C = {1,3,5,7}. Offenbar ist pf({ AN BNC) = p(1) = 1/8 
(1/2)? = p(A) - p(B) : p(C). Jedoch sind B und C nicht unabhängig, 
da p(BNC) = p(B) = 1/2 und p(B) - p(C) = (1/2)? = 1/4 sind. 








Wir haben eine Urne mit s schwarzen und £ türkisfarbenen Kugeln 
vorliegen und es sein = s+t. Die Wahrscheinlichkeit bei 3 Ziehun- 
gen, mit Zurücklegen, erst eine schwarze, dann eine türkisfarbene und 
wieder eine schwarze Kugel zu ziehen beträgt 


Ss Ss s? 
Popp) = = 





Nun dasselbe ohne Zurücklegen - einmal gezogen, bleibt die Kugel 
draußen. Ziehen wir die erste schwarze Kugel, bleiben nur s-1 schwarze 
Kugeln zurück. Die Wahrscheinlichkeit nun eine türkisfarbene Kugel zu 
ziehen hat sich also geändert, zu t/(n — 1). Wurde auch diese Kugel 
gezogen sind also noch s—-1 schwarze Kugeln in der Urne, die insgesamt 
nur noch n—2 Kugeln enthält. Die Wahrscheinlichkeit, dass die nächste 
gezogene Kugel schwarz ist, ist jetzt also (s — 1)/(n — 2). Insgesamt 
beträgt die Wahrscheinlichkeit der Zugfolge also 


S t s—1l 
n n-1l n-2 
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Am übersichtlichsten wird die Ziehung in einem Baumdiagramm: hier 
steht an jedem Knoten der gegenwärtige Zustand (die verbliebenen 
Kugeln in der Urne). An jedem Ast steht die entsprechende Über- 
gangswahrscheinlichkeit - die bedingte Wahrscheinlichkeit für den neu- 
en Zustand unter der Bedingung des alten Zustands: 


(st) 


S|o 
- 


(s-1,t) (s, t-1) 





(s-2,t) (s-1,t-1) (s-1,t-1) (s, t-2) 





s-1 t-1 s-1 t-1 t-2 
n-2 n-2 n-2 n-2 n-2 n-2 n-2 


(s-3,) (s-2,1) (s-2,1-1) (s-1,4-2) (s-2,1-1) (s-1,1-2) (s-1,t-2) (s,t-3) 


3s 2s, 1t 2s, 1t 1s, 2t 2s,1t 1s, 2t 1s, 2t 3t 


Bemerkung 7.8: Pfadregel: 

Die bedingten Wahrscheinlichkeiten treten also als Übergangswahrschein- 
lichkeiten auf: Ist das System in Zustand B, dann ist p(A | B) die Wahr- 
scheinlichkeit dafür, dass im nächsten Schritt A heraus kommt. Multipliziert 
man all diese Wahrscheinlichkeiten entlang der Äste in einem solchen Baum 
von der Wurzel bis zu einem der Blätter herunter, dann erhält man die Ge- 
samtwahrscheinlichkeit entlang dieses Pfades das Ergebnis des Blattes zu 
erreichen. 


Mathematisch ausgedrückt ist dies die folgende Tatsache (die sich leicht 
durch Induktion über m beweisen lässt): Sind Aı, Aa,..., Am < S$ irgend 
welche Ereignisse, mit pf(AıN AaN...N Am-ı) #0, dann gilt: 


m-—1 
P(AıNA2N...NAm) = p(Aı): [|] PlArrı | AıNn...N Ar) 
=] 


Eon 


Satz 7.9: Satz von Bayes: 
Sei wieder (5, p) eine Laplace-Raum und die Teilmenge A < S ein beliebiges 
Ereignis. Wir betrachten wie zuvor eine Partition { S1,Sa,...,S,} von S. 
Dabei gelte p(A) # 0 und p(S;) # 0 für allei € 1...k. Dann gilt für alle 
jel...k umgekehrt auch: 


p(A|lS;)p(55) _ _plAlS;)P(5;) 


p(5; | A) = p(A) Di p(A| Si) PS) 
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Beispiel 7.10: 

Jetzt wird es leicht politisch: Wir untersuchen die Beweiskraft von Geständ- 
nissen. Wir bezeichnen die folgenden Ereignisse: $ := der Angeklagte ist 
schuldig, U :—= der Angeklagte ist unschuldig und G := der Angeklagte hat 
ein Geständnis abgelegt. Offensichtlich bilden $ und U eine Partition des 
Raumes und damit können wir die Wahrscheinlichkeit, das der Angeklagte 
schuldig ist, unter der Annahme, dass er gestanden hat, mit dem Satz von 
Bayes ausdrücken: 


p(G | S)p(5) 
(G | U)p(U) + p(G | S)p(5) 





p(S|G) = = 


Es bezeichne weiterhin s := p($) und r := p(G | U)/p(G | S). D.h. s ist 
die (unbekannte) Schuldwahrscheinlichkeit des Angeklagten und r gibt an 
um wieviel (un)wahrscheinlicher es ist, dass ein Unschuldiger gesteht, als ein 
Schuldiger. Wegen p(U) =1- s erhalten wir (durch Kürzen von p(G | S)): 


5 
DIaL@R = r(1-s)+s 

Das Gericht ist natürlich davon überzeugt, dass ein Geständnis dafür spricht, 
dass der Angeklagte tatsächlich schuldig ist. D.h. der Richter glaubt an 
p(S) <p(S | G). Mit obiger Formel lautet dies also s< s/(r(1—-s)+s) und 
eine leichte Rechnung liefert daraus gerade r < 1, also p(G | U) < p(G | 5). 
Das heißt ein Geständnis erhöht die Schuldwahrscheinlichkeit nur, wenn eine 
schuldige Person eher gesteht, als eine unschuldige Person. Auf den ersten 
Blick denkt man: ’ja das ist doch wohl so’. Aber stimmt das überhaupt? Es 
kommt tatsächlich vor, dass ein Unschuldiger unter Druck Taten gesteht, die 
er gar nicht begangen hat. Und wenn wir an Terroristen denken - die wurden 
in Trainingslagern ausgebildet Druck auszuhalten, der Normalbürger aber 
nicht. Mit einem Blick auf Guantanamo sollte man also fest halten: Bei mut- 
maßlichen Terroristen senkt ein Geständnis, das unter Druck gegeben wurde, 
die Schuldwahrscheinlichkeit! 


Bemerkung 7.11: 

Während wir in den vorangegangenen Beispielen die Wahrscheinlichkeit p(s) 
aus den bedingten Wahrscheinlichkeiten zusammensetzen konnten, ist es in 
vielen Fällen nur möglich die Wahrscheinlichkeit zu schätzen - oder empi- 
risch zu untersuchen. In letzterem Fall ist es intuitiv klar, dass die relative 
Häufigkeit h(s) für das Ereignis s € $ in etwa die Wahrscheinlichkeit p(s) 
des Zustands sein muss. Und die Übereinstimmung muss umso besser sein, 
je größer der Umfang der Stichprobe ist. 

D.h führen wir eine Stichprobe f :1...n — $ vom Umfang n im Laplace- 
Raum (S,p) aus, dann nähern sich zu jedem Ereignis s € $ die relativen 
Häufigkeiten h(s) = #liel...n| f(i) = s} mit wachsendem n der Wahr- 
scheinlichkeit p(s) an. Dies nennt man das Gesetz der großen Zahlen 


VseS : h(s)>p(s) fü no 
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Werden die verschiedenen Ereignisse s € $ nun noch mit reellen Werten 
belegt X: — R dann haben wir in (4.3.(ii)) gesehen, wie sich der Durch- 
schnitt der Werte x:=Xf:1...n—> R:i X(f(i)) berechnen lässt 


Al) = D,hls)X (8) 


ses 


Setzt man nun den Grenzübergang h(s) — p(s) an, dann muss also die Folge 
der arithmetischen Mittel A(f(x)) konvergieren, gegen den Grenzwert 


Alz) > > ;p(s)X (5) für n— 00 
ses 


Den Grenzwert der arithmetischen Mittel von f(x) nennen wir den Erwar- 
tungswert von X. Analog bezeichnet man den Grenzwert der Varianz von 
f(x) wiederum als Varianz von X: 


Definition 7.12: 

Sei ($,p) ein Laplace--Raum und X Y:S — R zwei Zufallsvariable auf S. 
Dann definieren wir den Erwartungswert E(X) und die Varianz V(X) 
von X bzw. die Kovarianz o(X |Y) von X und Y durch 


E(X) := I ,p(s)X (8) 


ses 
oX|Y) := ,pls)(X(s) - EX): (Y(s) - E(N)) 
ses 
= E(XY)-E(X):-E(Y) 
V(X) = o(X|X) = ),r(s)(X(s) - EX)? 
ses 


Beispiel 7.13: Chuck a Luck: 

Beim Spiel Chuck a Luck zahlt der Spieler einen Einsatz e um auf eines von 
6 nummerierten Feldern setzen zu können. Sagen wir das gewählte Feld sei 
fe 1...6. Nun wirft er 3 (sechsseitige) Würfel. Und damit gewinnt er so 
viele Euro, wie er Würfel hat, die die Augenzahl f zeigen. Die Frage ist: bei 
welchem Einsatz e ist das Spiel fair? Dazu müssen wir zunächst das Spiel 
modellieren: 


$: 3 (#:.56)° = I (dı,da,ds) |d;E€1...6} 


Die Zufallsfunktion, die jedem Elementarereignis s = (dı,da,d3) € S die 
Zahl der Würfel zuordnet, die f zeigen bezeichnen wir mit K, formal also 


K:S-N: (di,da,d;) > #{iel...3|d;= f} 
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Diese Zahl folgt offensichtlich einer 3-stufigen Binomialverteilung mit der 
Wahrscheinlichkeit von 1/6 die Zahl f zu würfeln und 5/6 eine andere Zahl 
zu würfeln. Damit ergeben sich die folgenden Wahrscheinlichkeiten 


PIE=)= = 
p(K=1) = Be =. 
PIR=2) = 3.’ = 
er 


Die Zufallsvariable für den Gewinn ist offenbar X(s) = K(s) —e, da der 
Spieler ja K(s) Euro gewinnt, aber einen Einsatz von e Euro zahlen musste. 
Anhand des Erwartungswertes sieht man, dass das Spiel für e = 1/2 fair ist: 


Beispiel 7.14: 

Eine Spielbank bietet folgendes Spiel an: Der Spieler wirft einen Würfel (d6), 
der Croupier wirft 2 Würfel und bildet deren Summe (2d6). Hat der Croupier 
ein (echt) höheres Ergebnis als der Spieler, muss der Spieler v = 2 Euro an 
die Bank zahlen. Hat der Spieler Glück und erreicht mindestens das Ergebnis 
des Croupiers, so erhält er g = 10 Euro von der Bank. Wir fragen uns: 


(1) Wie hoch ist der vom Spieler erwartete Gewinn pro Spiel? 
(2) Wie hoch müsste die Gewinnsumme g sein, damit das Spiel fair ist? 


Für den Erwartungswert des Gewinns des Spielers benötigt man zunächst 
die Gewinnwahrscheinlichkeit P = p(2d6 < d6). Diese lässt sich mit dem 
Satz der totalen Wahrscheinlichkeit berechnen: 


12 
p(2d6 < d6) = ) pls < d6 | 2d6 = 5) - p(2d6 = 5) 
s=2 


Da die Würfel voneinander unabhängig sind, ist die bedingte Wahrschein- 
lichkeit p(s < d6 | 2d6 = s) = p(s < d6) = (7 - s)/6 für s < 6 bzw. = 0 
für s > 6. Die Wahrscheinlichkeit mit 2 Würfeln s zu würfeln beträgt (für 
s € 1...s, siehe dazu die Tabelle in dem einführende Beispiel zu diesem 
Kapitel) p(2d6 = s) = (s — 1)/36. Insgesamt also 


ae ee 1 
P = p(2d6<d6) = ), 2 z 
s=2 


4 
27 





Die Wahrscheinlichkeit, dass der Spieler verliert, beträgt also 23/27. Und 
damit kann man den Erwartungswert des Gewinns des Spielers berechnen 


2 
E(Gewinn) = g-P-v-(1-P) = 2 


o0 


Entsprechend erwartet die Bank 2/9 also etwa 22 Cent Gewinn pro Spiel. 
Das Spiel wäre fair, wenn E(Gewinn) = 0 ist. Löst man die entsprechende 
Gleichung 0 =g: P-v:-(1- P) für den Erwartungswert also nach g auf: 





le = 436 
g=-Vv P : 





Bemerkung 7.15: Maximum Likelihood Methode: 
Wir betrachten nun folgendes Problem: Oftmals kennt man nur die Art der 
Wahrscheinlichkeitsverteilung (z.B. eine Binomialverteilung bei Münzwür- 
fen), nicht aber die konkreten Wahrscheinlichkeiten (etwa bei einer nicht 
idealen Münze). Man möchte daher die zugrunde liegenden Wahrscheinlich- 
keiten anhand von Messwerten © = (21,...,2%n) € R” schätzen. 

Sei S also eine endliche (!) Menge und zu jedem Parameter A € [0,1] sei 
pı:S9— Reine Wahrscheinlichkeitsverteilung, d.h. (S,pı) sei ein Laplace- 
Raum. Sei ferner X: S — R eine Zufallsvariable. Dann ist 


mA) = mX=m) = ), mie) 


X(s)=x% 
die Wahrscheinlichkeit dafür, dass X den Wert x, annimmt. Wir wollen nun 


A so einstellen, dass die Wahrscheinlichkeiten px (A) möglichst groß werden. 
D.h. die Likelihood-Funktion L(A) soll möglichst groß werden: 


22) = ]]r0) 
kel 


Der sog. Maximum Likelihood Estimate MLE(X, x) von A ist derjenige Para- 
meterwert, für den L(X) maximal wird, d.h. für den gilt: 


L(MLE(X,x)) = sup{ L{A) |A e [0,1] } 


Man beachte, dass es aufgrund der strengen Monotonie des Logarithmus 
In: Ro — R genügt, die logarithmierte Likelihood-Funktion zu maximieren: 


A) := mL) = I nprlA)) 
k=1 


Das Maximum muss an einem kritischen Punkt von £ liegen, der Ansatz 
(A) = 0 führt aber auf eine Gleichung, die oftmals lösbar ist: 








LA = 3.0) 0 — A = MLE(X,e) 


Eine natürliche Verallgemeinerung dieser Situation besteht darin, dass eine 
endliche Anzahl von Parametern A = (Aı,...,Ar) geschätzt werden muss. 


ol 


Dies ist zum Beispiel der Fall, wenn Kugeln von 1<r e N verschiedenen 
Sorten aus einer Urne gezogen werden. Will man die Anteile X; der Kugeln 
der Sorteie1...r an der Gesamtzahl der Kugeln in der Urne schätzen, so 
kommen nicht mehr alle A in Frage, sondern es besteht die Nebenbedingung 


»r |\Vviel...r:\,>0 
A € A, = (On A)eR ae 


Es sei also wieder 5 eine endliche Menge und zu jedem A = (A1,...,Ar) € A, 
sei ein Laplace-Raum (S, pı) gegeben. Ist wieder X : $ — R eine Zufalls- 


variable und x = (2ı,...,2n) € R” eine spezielle Messung von X, dann 
definieren wir wieder die logarithmierte Likelihood- Funktion 


PA) = mX =) = ), Pils) 


X(s)=x% 


ed) = In) 
k=1 


Wir wollen £(\) wieder maximieren - dürfen dabei aber die Nebenbedingung 
n(A) :=Aı +... 4+Ar — 1= 0 nicht verletzen. Nach dem Satz über Maxima 
unter Nebenbedingungen führen wir dazu einen Lagrange-Multiplikator u € 
R und suchen einen kritischer Punkt der Lagrange- Funktion A 


AN) = A) = nA) 


Die partielle Ableitung nach u ist einfach die Nebenbedingung n(A) = 0 
selbst. Und die partiellen Ableitungen ö,; := O/OA, ergeben wegen ö;n(A) =1 


a 


k=1 





Insgesamt ist also ein nicht-lineares Gleichungssystem [bestehend aus r +1 
Gleichungen für die r +1 Unbekannten (A, u)] zu lösen, um die Wahrschein- 
lichkeit, dass der Laplace-Raum (S, p,) zu den Parametern A € A, unter der 
Zufallsvariablen X : $— R die Daten x € R” ergibt, zu maximieren: 


n pr)  _ 
Ira m) TH — X = MLE(X,r) 
Aıt:...+%r = 1 


Bislang haben wir die Nebenbedingungen A; > 0 aber noch nicht betrach- 
tet. Will man diese mit einbeziehen, muss man weitere Multiplikatoren y = 
(Yıs-:-,Yr) € R’ mit % > 0 einführen. Die KKT-Bedingungen (siehe unten) 
zum Auffinden der optimalen Parameter A bestehen dann in der Lösung ei- 
nes nicht-linearen Gleichungssystems [bestehend aus 2r + 1 Gleichungen für 
die 2r + 1 Unbekannten (A, Y, w)] 





n 8;pr (A 
Be eu —e HRS 
YA; = 0 — N = MLE(X, x) 
Alt:...+Ar = 1 


52 


Bemerkung 7.16: Maxima unter Nebenbedingungen: 

Ohne Beweis möchten wir hier einen recht starken Satz für Maxima unter 
Nebenbedingungen angeben, von Karush, Kuhn und Tucker: Sei DC R” 
und f:D-—R. Weiterhin seien zuie1...£und je1...m die Funktionen 
g%:D-Rundn;:D-—R gegeben. Dabei seien f und alle g; und alle n; 
stetig differenzierbar auf einer offenen Umgebung von D. Bezeichne nun 


Viel...l:gle)<oO b 
= (0) 


se — (vep vjel...m:n;(«) 


Dann suchen wir ein Minimum von f(x) unter der Nebenbedingung x € N, 
d.h. wir nehmen an, wir hätten einen Punkt x, € N gegeben, so dass gilt: 


fa.) = min{fa)|zeN} 
Schließlich bezeichnen wir zu A= (Aı,...,Ar) € R und u = (yı,..., im) € 
R’” die Lagrange-Funktion 


4 m 
Lx,A,u) := fa) + Agila) + I unsle) 
i=1 j-l 


Erfüllen die Nebenbedingungen nun die folgenden Regularitätsbedingungen 
in x.: die folgende Teilmenge ist linear unabhängig in R” 


{Vn;(&) |Je1...m} U {Vg(a,) |ie1...2 mit Gl) =0} 


dann gibt es (nicht notwendiger Weise eindeutige) A; > O und u; € R (wobei 
iel...lundjel...m), so dass die folgenden beiden Gleichungen gelten: 


V,L(z,\,u) = 0 
Agila) = 0 


Insgesamt ist also folgendes Gleichungssystem, bestehend aus n +2+m 
Gleichungen und ebenso vielen Unbekannten (z,A, u) zu lösen, wobei wir 
zusätzlich wissen, dass \; >O undzE N sein kann: 


Ve) =» 


A;gi(z) = 
n;(®) = 0 
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Kapitel 8 





Spezielle Verteilungen 


In diesem Abschnitt wollen wir einige klassische Verteilungen betrachten. In 
Kapitel 13 wird dies fortgesetzt und auch kontinuierliche Verteilungen be- 
trachtet. Zunächst beschränken wir uns aber auf diskrete Verteilungen, die 
als Laplace-Raum formuliert werden können. Auf die Dauer müssen wir die 
Laplace-Räume aber hinter uns lassen um beispielsweise die Normalvertei- 
lung betrachten zu können. Doch zunächst eine kurze Übersicht über die in 
diesem Text dargestellten Verteilungen und deren Anwendung: 





Verteilung Symbol | modelliert 
binomial B(n,A) | n Würfe einer (2-seitigen) Münze 
multinomial M(n,A) | n Würfe eines r-seitigen Würfels 


= n Ziehungen mit Zurücklegen 
hypergeometrisch | H(n,m) | n Ziehungen ohne Zurücklegen 


geometrisch G(A) Anzahl Versuche bis zum Erfolg 
Poisson P(X) | Anzahl der Vorkommen eines seltenen 
Ereignisses über lange Zeiträume 
normal N (u,o) | entsteht bei der Überlagerung 
vieler unabhängiger Einflüsse 
chi-Quadrat C(n) testet die Güte eines Modells 


in Bezug auf vorliegende Daten 








Binomialverteilung: 

Wir betrachten ein Experiment mit zwei möglichen Ausgängen, z.B. das 
Werfen einer Münze mit den Ergebnissen 1 = Kopf oder 0 = Zahl. Werfen 
wir1<ne IN Mal und notieren die Ergebnisse, dann ist die Folge der Würfe 
also ein n-Tupel s = (sı,...,5n) € Sin $ = {0,1}". Und für eine solche 
Wurffolge s sei w(s) € N die Anzahl der Würfe, die 1 ergeben haben: 


ae. ee FReLsen]lse=Tt 


Ist A € [0,1] die Wahrscheinlichkeit, bei einem Wurf eine 1 zu erhalten, 
dann ist die Wahrscheinlichkeit 0 zu erhalten also gerade 1— X. Und da die 
Ergebnisse der n verschiedenen Würfe voneinander unabhängig sind, ist die 
Wahrscheinlichkeit genau die Wurffolge s zu erhalten also A"(1- A)”"* wobei 
k=w(s) ist. 
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Es gibt aber (7) verschiedene Wurffolgen s € S, die alle gnau k € 0...n 
Mal 1 gezeigt haben. Insgesamt ist die Wahrscheinlichkeit k Mal die 1 zu 
werfen also gegeben durch 


plw=k) = “ ar A) 


Diese Überlegung führt auf die folgende Definition der Binomialverteilung. 
Eine Visualisierung dieses Experiments liefert zum Beispiel das Galton-Brett 
[siehe etwa http://de.wikipedia.org/wiki/Galtonbrett]. Dabei ist dann n die 
Zahl der Reihen mit Nägeln, die die Kugeln herunter fallen und A die Wahr- 
scheinlichkeit in einem beliebigen Schritt nach rechts zu fallen. Für genügend 
viele Kugeln ergibt sich dabei dann die Binomialverteilung. 


Definition 8.1: Binomialverteilung 
Wir definieren die Binomialverteilung der Tiefe 1<ne IN zum Parame- 
ter (zur Wahrscheinlichkeit) A € [0,1] als den Laplace-Raum 


Bin,\) := (5,p) 
wobei $ = {0,1}" und zu jedem s = (Sı,...,5n) € $ bezeichnen wir die 


Zahl der len in s, mit w(s) = #{kel...n|s, =1}. Dann definieren wir 
damit auch die Wahrscheinlichkeitsverteilung p: $ — R* durch 


pls) := AI - re) 


Satz: Mit diesen Bezeichnungen ist für eine vorgelegte Zahl k € 0...n die 
Wahrscheinlichkeit beim Wurf k len zu erhalten, gegeben durch 


plo=k) = b(inA,k) = ” AR(1 — ayr=k 


Satz 8.2: 


(i) Sei ($5,p) = B(n,A) die Binomialverteilung mit der Tiefe ne N zum 
Parameter X € [0,1], und wie in der obigen Definition sei wieder 
w(s) = #{kel...n|sk=1}, dann gilt für Erwartungswert und 
Varianz 

E(w) = n\ 
Vw) = nAl-A) 


Allgemeiner gilt für die Momente-erzeugende Funktion (ein Begriff, der 
in Kapitel 11 eingeführt wird) bei der Binomialverteilung 


Mu) = Ae-(1- A)" 


BB) 


(ii) Bezeichnen wir den Erwartungswert mit A := E(w) und die Varianz 
mit V :=V(w) dann können wir für A # 0 die Tiefe und den Parameter 
aus A und V zurück gewinnen, durch 





A-V 
ee 
A? 
m dey 
(ii) Ist x = (z1,...,2%m) € (0...n)” ein Datentupel (x; ist die Position der 


i-ten Kugel nach dem Durchlaufen eines n-stufigen Galton-Brettes), 
dann ist die Maximum Likelihood Schätzung des Parameters A das 
Tupel x unter w zu beobachten, gegeben durch 


MLE(w,2) = Ale) 


(v) Der Parameter A der Binomialverteilung kann auch direkt aus den 
Werten der Verteilung ermittelt werden: bezeichnen wir zuke0(...n 
jeweils nz := b(n,A,k) dann gilt 


knı 


A = 
(n—-k+1l)ng-ı + kn 





(vi) Zu jedem Parameterwert A € [0,1] und jedem k € 0... (n—1) erfüllen 
die Symbole b(n,A, k) die folgende Rekursionsformel 


n-—k A 


bn,A,k+1) = 27° T_y PmA,k) 





(vi) Die Gegenwahrscheinlichkeit der kumulierten Verteilung lässt sich durch 
die kumulierte Verteilung der Gegenwahrscheinlichkeit ausdrücken. Kon- 
kret gilt für beliebiges A € [0,1] und kEO...n gilt die Formel 


1-B(n,\,k-1) = B(n,‚1-A,n-k) 


(vi) Chernoff-Schranke: [John Canny, berkley.edu, CS174] Ist wieder (5, p) = 
B(n,A), u := E(w) = nA und ist 0O<6ö<1, dann gilt die Abschätzung 


pw<(1-ö)u) < (Fe) < exp (-54) 


Und ist 0 < ö beliebig, dann erhalten wir die umgekehrte Abschätzung 





pw>(1+ö)u) < (a) < exp (5) 
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(viii) 


Die Verteilungsfunktion der Binomialverteilung ist eine sogenannte 
Beta-Verteilung. Sind 1<a,be N und ist x € [0,1] dann ist die- 
se definiert, durch 


az een [ra-9 a 


Diese kann noch weiter verallgemeinert werden, worauf wir hier aber 
nicht eingehen wollen. In dieser Form wird sie aber von MS-Excel oder 
Libre-Office-Calc zur Verfügung gestellt. So berechnet man ß(x,a,b) 
mit dem Befehl BETADIST(zx,a,b,0,1). Und sogar die Inverse Beta- 
Verteilung kann berechnet werden: Ist y = ß(x, a,b), dann liefert x = 
BETAINV(y,a,b,0,1) gerade die Variable x zurück. Mit dieser Funktion 
gilt dann für alleO<k<n: 





k 


Y,bn,A,:) = Bll-An-k,k+1) 


i=0 


Explizit ausgeschrieben bedeutet diese Identität also nichts anderes, 
als die folgende Möglichkeit zur Berechnung der ersten k Wahrschein- 
lichkeiten b(n, A, :) 


i(1 - AP ! N 
(a N ac 1-1) 





Seien 1<m,ne N die Tiefen zweier Binomialverteilungen zu dem 
Parameter X € [0,1]. Dann ist die Binomialverteilung der Tiefe m+n 
einfach das Produkt der Verteilungen - vgl. (11.7) - der Tiefe m und n 


B(m,A) ® B(n,A\) = B(m+n,A) 


Beweis: 

Wir wollen hier nur die erste Aussage (i) zeigen - die Formeln für den Erwar- 
tungswert und die Varianz der Binomialverteilung. Die Rechnungen in denen 
dies gezeigt wird sind elementar und länglich sollten aber der Vollständigkeit 
halber nicht fehlen. Wir betrachten nun eine Funktion in den Variablen x 
und y und bezeichnen die Ableitung nach x mit Ö, 


enge 
= ar Sonst 


k=0 
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Nach Definition des Erwartungswertes ist E(w) gerade f(\,1-X) und damit 
erhält man dann, die in (i) behauptete Formel: 


= I k-bin,A,k) = FL) = An I nA 
k=0 


Für die Formel der Varianz verwenden wir den Verschiebungssatz V (w) = 
E(w?) — E(w)? und zur Berechnung von E(w?) betrachten wir die Funktion: 


g(2,y) := ze(, av ae 


u > eik- (, at kn-k au 
k 
k=0 





k=2 
- n 
= ı? > k(k - y()) Fa Fr) 
k=2 
Y n 
= (ut + sen) 
k=2 
= 2202 ” (Eat 3 - ur) + fe,9) 
k=0 
= ed, ((w+y)" - — N +nz(a + y)" 
= 29, (ne +)" 1) nel + y)" 
= zn(n-1)(x + y- ”+ Be + y)"1 


Wiederum ist g passend definiert worden, dass E(w?) gerade g(A,1- A) ist. 
Und E(w)? = (nA)? kennen wir bereits nach dem oben Gezeigtem. Damit 


V(w) = E(w?) - E(iw)? = g(A,1-X)- (nA)? = Mn(n-1)+ni-n?X 
mr -n®+ni-n?% = ni-n\ = nil-A) 


Der Beweis von (vi) ist sehr einfach und soll hier ebenfalls nicht fehlen. In 
der Rechnung wird der Index j = n - i eingeführt. Dann ist der Bereich 
vek...ngeradeje0...k und daher gilt: 


1- B(n,\,k-1) = = (%) aa arm 


i=k 


= 1 ri n—-(n-i) 
2 („ x ‚)‘ ArA 


k 
2 ()e- AyArTI = B(n,1-A,k) 
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Multinomialverteilung: 

Wir verallgemeinern nun die Binomialverteilung auf mehr als 2 mögliche Er- 
gebnisse des Zufallsexperiments: d.h. wir werfen einen r-seitigen Würfel n 
Mal und notieren uns die Ergebnisse s = (sı,...,$n) € (l...r)” der Würfel- 
würfe. Anstelle eines Würfels kann man auch ein Glücksrad betrachten: Ist A; 
der Anteil "Winkel des i-ten Feldes / 2’ dann ist A = (Aı,...,Ar) eine Wahr- 
scheinlichkeitsverteilung auf 1...r, d.h. es gilt ,; > O und Aı+...+X. =1. 

Dieselbe Situation erhält man, wenn man eine Urne mit r Sorten von 
Kugeln füllt. Sind jeweils m; € N Kugeln der i-ten Sorte gegeben, dann sind 
insgesamt M = mı ++ m, Kugeln in der Urne. Die Wahrscheinlichkeit 
eine Kugel der Sorte ö zu ziehen ist in diesem Fall also A; = m;/M und 
wieder ist A = (A1,...,Ar) eine Wahrscheinlichkeitsverteilung auf 1...r. 

Ist nun s= (sı,...,3n) € (l...r)” ein n-Tupel von Ergebnissen unseres 
Zufallsexperiments dann bezeichnen wir mit ı := #!kel...n| s, =i} 
die Zahl der Vorkommen der Sorte i in den Ergebnissen. Und damit ist dann 
die Wahrscheinlichkeit genau diese Ziehung s zu erhalten gegeben, durch: 


p(s) = II® 
i=1 


Bei der Zählung, welche Sorte wie oft vorkommt, spielt die Reihenfolge 
der Ergebnisse aber keine Rolle. Wir können die s; beliebig umsortieren, 
wobei die w;(s) Ergebnisse der Sorte i dabei keinen Unterschied machen, 
so dass es (vgl. Kugelverteilung I) (?) Möglichkeiten gibt, die Anzahlen 
a = wi(ls) € O...n (wobeii € l...r) zu erhalten. Insgesamt beträgt die 
Wahrscheinlichkeit die Anzahlen a = (aı,...,a,) zu erhalten also 


Definition 8.3: Multinomialverteilung: 
Wir definieren die Multinomialverteilung mit r Sorten, der Tiefe n und 
den Häufigkeiten (auch Parameter genannt) A = (Aı,...,Ar) (wobei l<r, 
ne N und füriel...r ist A; € [0,1] so dass Aı ++, = 1) als den 
folgenden Laplace-Raum 

M{n,\) := ($,p) 


wobei S := (1...r)” und die Wahrscheinlichkeitsverteilung p wie folgt defi- 
niert wird: zunächst bezeichnen wir zu s= (sı,...,5n) € $ die Anzahlen 


ww: $S-N: (sı,..., m) #lkel...n|s,=i} 


und schreiben w(s) := (wı(s),...,wr(s)) € N”, dann definieren wir p durch: 


p(s) = 1%» e Rt 
i=1 
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Satz: Bezeichnen wir die Menge alle Multi-indices mit Betrag n mit A(r,n) := 
Ta=(a1,...,@)€ N’ ||a| = aı+...+@=n}, dann ist für «€ A(r,n) 
die Wahrscheinlichkeit ein se S mit w(s) = a zu erhalten gegeben, durch: 


pliw=a) = m(n,\,a) := (2) II 


Satz 8.4: 

Sei ($,p) = M(n,A) die Multinomialverteilung zur Tiefe n mit den Häu- 
figkeiten Aı,...,X, der r Sorten. Und zu i € 1...r bezeichne wie üblich 
wg oN:(sı,...,m) > #{kel...n|s£=i} die Zufallsvariable des 
Vorkommens der i-ten Sorte. Dann gilt: 


(i) Istiel...rundke0...n, dann ist die Wahrscheinlichkeit für w; = k 
gerade die Wahrscheinlichkeit der Binomialverteilung mit n Stufen zu 
X; des Ereignisses w = k, d.h. es gilt 


plw=k) = b(n,\,k) = () Ab(L - Ayrmk 


(ii) Für beliebige Sorten i, j € 1...r mit © Z j können wir den Erwar- 
tungswert, die Varianz und Kovarianz der w; und w; berechnen, durch 


E(w;) — nA; 
V(w;) = nı;(1l =: X;) 
o(w; | w;) = NAA;, 
(ü) Ist X = (&1,...,2r) eine (mx r)-Matrix, wobei x; = (21,55. :-,&m,j) € 


N” und ı +... +2 =n für allei el...m (x;,; ist die Anzahl 
der Vorkommen der j-ten Sorte in der i-ten Ziehung), dann ist die 
Maximum Liklihood Schätzung der Parameter A; die Matrix X unter 
w= (w1,...,Wwr) zu beobachten, gegeben durch 


MLE(w,X) = —(Alav)ı...,Alcı)) 


(iv) Seien 1<m, ne N die Tiefen zweier Multinomialverteilungen mit r 
Sorten, zu den selben Parametern A = (Aı,...,Ar). Dann ist die Multi- 
nomialverteilung der Tiefe m+n einfach das Produkt der Verteilungen 
- vgl. (11.7) - der Tiefe m und n 


M(m,XA)® M(n,\) = M(m+n,A) 
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Hypergeometrische Verteilung: 

Die Multinomialverteilung M(n,A) beschreibt den Fall, dass aus einer Urne 
n Kugeln gezogen (und zurück gelegt) werden. Dabei gibt es r verschiedene 
Sorten von Kugeln, mit den Anteilen \; = m;/M an der Gesamtzahl M von 
Kugeln in der Urne. D.h. es sind m; Kugeln der Sorte i in der Urne und 


r 
>_ mi 
i=1 


Da wir die Kugeln zurück legen ändern sich die Anteile A; nicht und der n-te 
Zug ist unabhängig von allen voran gegangenen Zügen. Wenn wir die Kugeln 
jedoch nicht zurücklegen, ändern sich die Anteile und damit die Wahrschein- 
lichkeiten: 

Nehmen wir an, wir hätten eine Kugel der Sorte ö gezogen. Da sich die 
Zahl der verbleibenden Kugeln in der Urne geändert hat, fällt die Wahr- 
scheinlichkeit eine weitere Kugel der Sorte ö zu ziehen auf (m; - 1)/(M -1) 
wohingegen die Wahrscheinlichkeit eine Kugel der Sorte j # i zu ziehen auf 
mj/(M —1) gestiegen ist. Insgesamt ist die Wahrscheinlichkeit der Zugfolge 
(i,i) bzw. (i,j) also gegeben, durch 


m Mm; — 
M M-1 


mu mM; 
M M-1l 








pli,i) = bzw. pli,j) = 
Offensichtlich lässt sich diese Überlegung auf n aufeinanderfolgende Züge 
verallgemeinern: Nehmen wir an, wir hätten a; Kugeln der Sorte ö gezogen 
(für alleve1...r). Dabei muss natürlich &; < m; sein und es ist 


Tr 
a: al = Y.8 
i—1 


Da sich die Gesamtzahl der Kugeln in der Urne in jedem Zug um eins verrin- 
gert, wird nach n Zügen der Nenner in dieser Kette von Anteilen angewachsen 
sein zu 

1 1 1 (M=n)! 

Mm Mi" Men4T mM 
Und die a; Ziehungen von Kugeln der Sorte i würden zu den Zählern in der 
Kette der Anteile den Beitrag m;(m; - 1)... (m; - u; +1) = m;!/ (m; - «;)! 
leisten. Da die Wahrscheinlichkeiten nur von den gegenwärtigen Anteilen der 
Kugeln (der jeweiligen Sorte) abhängen und diese Verhältnisse untereinan- 
der kommutieren, ist die Wahrscheinlichkeit &ı Kugeln der Sorte 1 und ao 
Kugeln der Sorte 2 und und so weiter und a, Kugeln der Sorte r zu ziehen, 
gegeben durch 


a m;! (M-n)! _ IE-ı !(%) = 
pls) Il m-a)! Mm DT in, 1 ® 


n 
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wobei se (1...r)” die Folge der Sorten der gezogenen Kugeln ist. Man be- 
achte, dass die Wahrscheinlichkeit s zu ziehen in Wirklichkeit nur von den 
Anzahlen a; von gezogenen Kugeln der Sorte i abhängt, nicht von der tat- 
sächlichen Reihenfolge der Ziehung. Es gibt genau n!/(a1!... ar!) Zugfolgen 
se (1...r)"” die die gemeinsamen Anzahlen @ = (aı,...,a,) an Kugeln der 
verschiedenen Sorten aufweisen. Die Wahrscheinlichkeit insgesamt also aı 
Kugeln der Sorte 1 und aa Kugeln der Sorte 2 und so weiter bis a, Kugeln 
der Sorte r zu ziehen, ist also gegeben, durch 


0 5 


nJi=l 


Beispiel 8.5: 

Wir betrachten ein Beispiel mit r = 2 Sorten: Wie hoch ist die Wahrschein- 
lichkeit beim Lotto 4 Richtige (wir ignorieren die Zusatzzahl) zu haben? 
Dazu drehen wir die zeitliche Abfolge um: Nach der Ziehung gibt es 6 richti- 
ge und 49 — 6 = 43 falsche (nicht-gezogene) Kugeln, es ist also m = (6,43). 
Beim Ausfüllen des Lottoscheins haben wir ebenfalls n = 6 Kreuzchen auf 
den 49 Feldern gemacht. 

Die Frage ist also, wie viele Kreuzchen auf den richtigen 6 Feldern gelan- 
det sind. Bei 4 Richtigen wären offenbar 2 in den falschen Feldern gelandet, 
so dass & = (4,2). Die Wahrscheinlichkeit für diese Kreuzchenwahl ist also 
gegeben, durch 





6\ (43 


Definition 8.6: Hypergeometrische Verteilung 

Es seien 1<r,ne N und zu jedem : € 1...r sei m; € IN gegeben. Wir 
bezeichnen m = (mı,...,m,) € IN” und definieren die hypergeometri- 
sche Verteilung mit r Sorten, der Tiefe n und den Vorkommen m, als den 
folgenden Laplace-Raum 


Hln,m) := ($,p) 


Zunächst konstruieren wir S: Sei T := (1...r)” und wie zuvor, die bei der 
Multinomialverteilung definieren Anzahlen w; der Vorkommen von i in s 


ww: TON: (sı,...,m)+#fkel...n|x=i} 


Wir bezeichnen ferner M:=mı +... +m, € N und w = (wı,...,0.):T — 
IN”. Dann können wir den Raum 5 beschreiben, als 


$ := IseT|Viel...r:ul(ls) <m;} 


Es bleibt die Wahrscheinlichkeitsverteilung p : $ > R* zu definieren, durch: 


p(s) := (co) 


i=1 
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Satz: Bezeichnen wir die Menge aller Multi-indices a = (aı,...,ar) € N” 
mit Betragn und «; < mi als Am(r,n) = {a € Alr,n) |Vviel...r:u <mi} 
dann ist für a € Am(r,n) die Wahrscheinlichkeit ein se $S mit w(s) = a zu 
erhalten gegeben, durch: 


1 2 m; 
pla=&) :=- hin,m,&) = [any | “ 
n/ i=l 
Satz 8.7: 
Sei ($S,p) = H(n,m) die hypergeometrische Verteilung mit r Sorten und 
Tiefe n zum Vorkommen m = (mı,...,m,) € IN”. Wie oben definieren wir 


M := mı +... + m, und betrachten ©# j € 1...r, dann erhalten wir die 
folgenden Eigenschaften: 











nm; 
E(w;) = IE 
nm; m;\M-n 
Vla) = (1 N) M-1ı 
nm;m; M—-n 
o(w|w;) = 2 RT 


Bemerkung 8.8: 

Wenn so wenige n Ziehungen erfolgen, dass sich die Anteile m;/M nur wenig 
ändern, dann liefert die hypergeometrische Verteilung H(n, m) näherungs- 
weise dieselben Werte, wie die Multinomialverteilung M(n, A), d.h. für alle 
a € Alr,n) gilt (wobei M:=mı+...+ m, und ; = m;/M) 


h(n,m,a) = m(n,A,«) 
Genauer gesagt, gibt es aufgrund der Stirling’schen Formeln, Näherungsfeh- 


ler e und 6; € R mit |ö;| < 1/11(m; — &;) beziehungsweise le| < 1/11(M —n) 
so dass sich das Verhältnis dieser beiden Verteilungen schreiben lässt, als 


hinm,o) _ Hzıll+6) ar 2 ( m; ie 
i=1 








m(n,A,a) l+e M m; — Qi 
Aufgrund der Komplexität dieser Formel ist es schwer eine vernünftige Ab- 
schätzung zu geben, wann ein Übergang zur Multionomialverteilung gerecht- 
fertigt ist. In der Literatur wird gelegentlich das Kriterium a;/m; < 1/20 
(für allei € 1...r) gegeben. In diesem Fall sind dann auch n/M < 1/20 und 
mi/(m; — @;) < 20/19. Aber selbst in diesem Fall ist die Abschätzung noch 
recht unhandlich 








h(n,m, a) ” 1+ 2,5 +0(82) [20 M=n+43 /M —n\ Mrt05 
m(n,A,a) Rep: 19 M 
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Geometrische Verteilung: 

Wir kehren zur allgemein beliebten Binomialverteilung zurück - d.h. wir 
betrachten ein Bernoulli-Experiment, wie etwa die Frage ob ein geworfener 
Würfel eine 6 zeigt. Die Wahrscheinlichkeit, dass das gewünschte Ereignis 
eintritt sei A € [0,1]. Diesmal fragen wir uns aber, wie oft wir den Versuch 
wohl durchführen müssen, bis das Ereignis eintritt? Offensichtlich ist p(0) = 
0 - wirft man den Würfel nicht, wird auch keine 6 angezeigt. Und kommt 
erst beim n-ten Mal eine 6, dann müssen zuvor n— 1 Würfe jeweils eine Zahl 
von 1 bis 5 ergeben haben. Für n > 1 ist die Wahrscheinlichkeit erst nach n 
Würfen den ersten Erfolg zu haben, also gegeben durch 


pin) = (L-ATI A 


Es handelt sich hier um die einfachste Verteilung überhaupt - summiert man 
über alle p(n), so entsteht eine geometrische Reihe (daher auch der Name, 
die Verteilung hat keine geometrische Bedeutung). Ist die Wartezeit nicht in 
diskreten Schritten, sondern kontinuierlich, dann muss man stattdessen die 
Poisson-Verteilung verwenden, die wir im Anschluss einführen werden. 


Definition 8.9: Geometrische Verteilung 

Sei A € [0,1] ein fixierter Parameter (die Wahrscheinlichkeit des Eintretens 
des betrachteten Ereignis), dann definieren wir die geometrische Vertei- 
lung zu A also den Laplace Raum 


GA) := (N,p) 
wobei wir p(0) := 0 setzen und zu n £ 0 definieren wir die Wahrscheinlichkeit 


pin) = A-(L- A)" 


Satz 8.10: 

Sei (N,p) = G(X) die geometrische Verteilung zu X € [0,1]. Die Zufallsva- 
riable der Anzahl der Versuche ist dananid: NZ N:n-— n und für diese 
gelten die folgenden Aussagen: 


(i) Die Wahrscheinlichkeit, dass das betrachtete Ereignis nach höchstens 
n € IN Versuchen eintritt, ist gegeben, durch 


pid<n) = 1-(1-X)" 


(ii) Ist A> 0, dann hat id einen Erwartungswert und eine Varianz, von 


E(id) 


Vlid) = 
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Allgemeiner gilt für die momente-erzeugende Funktion (ein Begriff, der 
in Kapitel 11 eingeführt wird) bei der geometrischen Verteilung 


At 
M;alt —— 
(ii) Sei x = (a1,...,‚m)€E N" mit, >1(füriel...n) ein Datentupel 
(x; ist die Anzahl der Versuche bis zum ersten Eintritt des gesuchten 
Ereignis), dann ist die Maximum Likelihood Schätzung des Parameters 

A das Tupel x unter id zu beobachten, gegeben durch 


1 
A(z) 





MLE(id,x) = 


Poisson- Verteilung: 

Die Poisson-Verteilung ist eine Variante der Binomialverteilung: Sie model- 
liert die Situation, dass ein bestimmtes Ereignis eine konstante (geringe) 
Eintrittswahrscheinlichkeit hat und wir fragen uns wie häufig dieses Ereignis 
dann auf lange Sicht vorkommt. Ein Beispiel: Eine Folge von Bits wird mit 
konstanter Geschwindigkeit über eine Leitung versendet. Die Wahrschein- 
lichkeit, dass ein falsches Bit übertragen wird ist, ist proportional zur Zahl 
der übertragenen Bits und daher zur vergangenen Zeit. Wir fragen uns nun, 
wie hoch die Wahrscheinlichkeit ist, in einem langen Datenstrom ist, dass 
se N Bits falsch übertragen wurden? Wir treffen also folgende Annahmen: 


e Die Wahrscheinlichkeit für den Eintritt des Ereignisses ist proportional 
zur betrachteten Zeitdauer At. 


e Die Wahrscheinlichkeit für den Eintritt des Ereignisses ist unabhängig 
vom betrachteten Zeitpunkt t - nur von der Zeitspanne At. 


e Das Ereignis ist selten - es kommt maximal einmal pro Zeitintervall At 
vor - da wir später At — 0 gehen lassen, ist diese Annahme vernünftig. 


Sei po(t) die Wahrscheinlichkeit, dass das Ereignis im Zeitabschnitt [O, £] 
nicht aufgetreten ist. Dann ist po(t + At) die Wahrscheinlichkeit, dass das 
Ereignis im verlängerten Zeitintervall [0, + At] immer noch nicht aufgetreten 
ist. Dazu darf es also nicht im Zeitabschnitt [0,t] und nicht im Zeitabschnitt 
[t,t + At] aufgetreten sein. Da wir vorausgesetzt haben, dass die Eintritts- 
wahrscheinlichkeit zeitunabhängig ist, ist letzteres also po(At). Und da beide 
unabhängig voneinander mit und kombiniert werden, gilt also 


po(t +At) = polt) - po(At) 


Ist At klein genug, so tritt das Ereignis höchstens einmal im Zeitabschnitt 
[0, At] ein. Ist pı(t) also die Wahrscheinlichkeit für das einmalige Eintreten 
des Freignisses im Zeitabschnitt [0,1], so gilt also pı (At) = 1—- po(At). Nun 
ist die Eintrittswahrscheinlichkeit aber proportional zur Zeitdauer, d.h. es 
ist pı(At) = a At für eine Wahrscheinlichkeitsdichte « > 0. Daraus folgt 
dann aber po(At) =1-pı(At) =1- aAt und damit 


po(t+At) = po(t):(1-aAt) = polt) - apo(t)At 
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Wir können diese Gleichung nun leicht zum Differentialquotienten umformen 


po(t + At) — po(t) 
At 





apo(t)At 


Indem wir At — 0 gehen lassen, haben wir also die Differentialgleichung 
Do(t) = -apo(t) gefunden. Und wegen po(0) = 1 wird diese eindeutig gelöst: 
pol!) = e* 

Damit haben wir die Wahrscheinlichkeit gefunden, dass das Ereignis im Zeit- 
intervall [0, t] nicht eintritt. Sei nun allgemeiner px.(t) die Wahrscheinlichkeit 
für das k-malige Eintreten des Freignisses im Zeitintervall [0, £). Damit setzt 


sich pr(t + At) zusammen als Kombination: k Ereignisse bis t und danach 
kein Weiteres oder k — 1 Ereignisse bis t und danach noch ein Weiteres 


pr(t+At) = pr(t) : po(At) + pr-ı(t)  pı(At) 


Setzen wir wieder pı(At) = aAt und po(At) = 1— aAt in diese Gleichung 
ein, so erhalten wir daraus dann weiter 


Pr(t+At) = pr(t) - apr(t)At + apr-ı(t)At 


Formen wir das wieder zu einem Differentialquotienten für p, um und be- 
trachten den Grenzwert At — 0 so ergibt sich das DGL-System 


Prlt) = -apr(t) + apr-ı(t) 


Da po(t) = exp(-at) schon bekannt ist, zeigt man mit Hilfe einer vollstän- 
digen Induktion über k leicht, dass daraus folgt 


a k 
pr(t) = er. 


-ät 
Insgesamt betrachten wir das Zeitintervall [0,7] und setzen A := aT. Dann 
ist die Wahrscheinlichkeit für k Ereignisse also wie gesehen 


Ar BaN 
Pr = m(T) = FEEs 


Was genau ist die Bedeutung des Parameters A? Treten im Schnitt k Ereig- 
nisse ein, dann ist At = T/k also die durchschnittliche Zeit für das einmalige 
Vorkommen eines Ereignisses. Es stellt sich heraus, dass A = k gerade die 
mittlere Zahl von Ereignissen ist und damit sieht man also 


T betrachteter Zeitraum 





At  durchschnittliche Zeit für ein Ereignis 
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Definition 8.11: Poisson-Verteilung 
Ist A > O ein beliebiger positiver Parameter, dann definieren wir die Poisson- 
Verteilung P(\) als den Laplace-Raum (N, p), wobei 


k 


p: N-[0,1] : kr er 


Satz 8.12: 


(i) Ist (N,p) = P(A) die Poisson-Verteilung zum Parameter A und be- 
zeichnet id: NJ>JN CR:k+ k die Zufallsvariable der Zählung der 
Ereignisse, dann gilt 

Eid) = A 


Vüd) = A 


(ii) Die Wahrscheinlichkeiten p(k) der Poisson-Verteilung (N,p) = P(A) 
genügen einer einfachen Rekursionsformel (für alle ke N) 


Pik+1) = plh) 


Mit Hilfe der Stirlingschen Formel kann man für große k aber auch die 
folgende Abschätzung verwenden: 


exp (k + k:In(A/k) — A) 


PR) In (k + 1/6) 





(ii) Ist x = (z1,...,2n) € N” ein Datentupel (x; ist die Anzahl der Vor- 
kommens des Ereignisses im ö-ten Versuch), dann ist die Maximum 
Likelihood Schätzung des Parameters A das Tupel x unter id zu beob- 
achten, gegeben durch das arithmetische Mittel 


MLE(id,x) = A(&) 


(iv) Grenzwertsatz von Poisson: Die Binomialverteilung kann für kleine 
Eintrittswahrscheinlichkeiten und viele Versuche durch die Poisson- 
Verteilung angenähert werden. Genauer gilt: Ist A > 0 vorgelegt und ist 
(pn) < [0,1] eine Folge von Wahrscheinlichkeiten, so dass (np„n) > A 
für n — © gilt, dann gilt im Grenzwert auch für allek e N 


lim b(n,pn,k) = —e 
NO 


(v) Ein Spezialfall des Grenzwertsatzes von Poisson ist folgende Faustfor- 
mel: fürn > 11,9 < 1/20 undk EN, so dass kp << 1 und k?/n <<1 
hinreichend klein sind, kann man mit A := np abschätzen: 


n\_k n-k DER 
„)P (1-p) = b(n,p,k) = pı(k) = ze 
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(vi) Zu jedem {€ 1...m betrachten wir eine Poisson-Verteilung (IN,p;) = 
P(X,) zum Parameter A; > 0 und bezeichnen miti; : NR: 
k; > k; wieder die Zufallsvariable der Zählung des i-ten Ereignisses. 
Sei weiterhin (N,p) = P(Aı +... + Am) die Poisson-Verteilung zur 
Summe der Parameter X;. Dann gilt für die Wahrscheinlichkeit über 
alle P(X;) insgesamt k € N Vorkommen zu beobachten 


p v2 id; = ‘) = > I] = a) 


i=1 laj=k i=1 
k! 
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Kapitel 9 


Markov-Ketten 


In diesem Abschnitt wenden wir uns folgendem Problem zu: gegeben ist eine 
endliche Anzahl von Zuständen 1 bis n. Wir betrachten nun ein Objekt, dass 
in diskreten Zeitabständen zwischen diesen Zuständen wechseln kann. Bei- 
spiel: eine Katze befindet sich entweder draußen, auf dem Sofa, unter dem 
Bett oder in der Küche. Wir sehen jede Stunde nach, wo sich die Katze be- 
findet und notieren die Folge der Aufenthaltsorte. Nun interessieren wir uns 
für Fragen wie: mit welcher Wahrscheinlichkeit ist die Katze (auf lange Sicht 
gesehen) auf dem Sofa? Dieses Problem hat viele praktische Anwendungen: 
Migrationsbewegungen, Altersverteilungen, Wählerwanderung, und der Pa- 
ge Rank Algorithmus von Google, um nur einige zu nennen. 


Übergangsmatrizen: 

Wir betrachten die Menge der Zustände So :=1...n, zum Beispiel numme- 
rierte Urnen. Zu Beginn befinden sich a; € IN Objekte im Zustand i € So, in 
Urnenbeispiel sind also a; Kugeln in Urne i. It A=aı +qa2 +:::+ an die 
Gesamtzahl an Objekten/Kugeln, dann ist die Ausgangsverteilung 9 € R” 
damit gegeben durch 


Gi 


g = (@ll],...,goln]) wobei gofi] = 7 


In jedem Schritt hat jedes Objekt eine gewisse Wahrscheinlichkeit von einem 
Zustand in einen anderen Zustand über zu gehen. Die Wahrscheinlichkeit soll 
dabei aber nicht von dem jeweiligen Objekt, sondern nur vom gegenwärtigen 
Zustand je 1...n und möglichem nächsten Zustand © € 1...n abhängen. 
In k-ten Schritt (wobei 1< ke N) sei die Übergangswahrscheinlichkeit von 
Zustand j nach Zustand i gegeben, durch 


Püs) € [0,1] 
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Wie sieht dann die Verteilung qı der Kugeln nach einem Schritt aus? Es wird 
der Anteil Pıli, j] der Kugeln von Urne j nach Urne i übergegangen sein. Da 
Ag; Kugeln in Urne j waren also APfi, j]q;. In Urne i sammeln sich aber 
Kugeln aus allen Urnen j € 1...n, so dass sich deren Anzahl summiert. Der 
Anteil qı[?] der Kugeln in Urne i nach einem Schritt ist also 


all) = Y,Alslol] 
j=l 


Dies gilt nun für jedess € 1l...n und damit ist das n-Tupel qı € R” nichts 
anderes als das Ergebnis der Vektor-Matrix-Multiplikation qı = Pıgo wobei 


Ali RL... Plun] 
Pi PB Pıle.n] 
Pin il Bil: =. Die) 


Im nächsten Schritt verteilen sich die Kugeln neu - diesmal mit den Über- 
gangswahrscheinlichkeiten P2 so dass die Verteilung nach zwei Schritten ge- 
rade go = Pagı = PaPı ist. Setzt man diese Überlegung fort, so ergibt sich 
für die Verteilung qm nach m Schritten: 


Im 7 Pr: PaPıg0 


Klar ist, dass sich aus den Verteilungen qm die Anzahl der Kugel in Urne 
ie 1...n rekonstruieren lässt, als A - qm[il. Damit genügt es sich auf die 
Verteilungen q; zu beschränken und die Gesamtzahl A zu ignorieren. 

Wir interessieren uns nun für die Entwicklung der Folge (90, 91, :-: ‚ dm) 
der Verteilungen und insbesondere für die Grenzverteilung qm für m — x. 
Es wird sich zeigen, dass für die Beantwortung dieser Fragen ein gutes Stück 
lineare Algebra nötig ist. Wir gehen zwar davon aus, dass die lineare Algebra 
als Basiswissen gut bekannt ist, wiederholen aber ein paar Notationen und 
ausgewählte Ergebnisse. Es gibt eine große Anzahl sehr guter Bücher und 
Skripten zu diesem Gebiet, von denen wir insbesondere [Friedberg, Insel, 
Spence; Linear Algebra] empfehlen wollen. Eine sehr lesenswerte Verallge- 
meinerung zur linearen Algebra über Ringen (genannt Modultheorie) findet 
sich in [Adkins, Weintraub; Algebra - an Approach via Module Theory]. 

Doch zunächst sollten wir betrachten, um was für Matrizen es sich bei 
den Pr überhaupt handelt: Zunächst ist go eine Wahrscheinlichkeitsvertei- 
lung auf So d.h. es ist gol1l ++ go|n] = 1. Ebenso sollen die Kugeln ja nur 
umverteilt werden. D.h. für allek eN und alle je 1...n muss die Summe 
aller aus Zustand j abgehenden Anteile P,[1,5]+: + Pı[n, j] = 1 sein. Dies 
führt uns auf die Definition: 
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Definition 9.1: Stochastische Matrizen: 
Wir nennen ein n-Tupel p = (pı,...,Pn) € R” reeller Zahlen stochastisch, 
falls alle Einträge positiv sind und deren Summe 1 ergibt, d.h. falls 


(1) Viel...ngit my > 0 
a 


In anderen Worten: p ist eine Wahrscheinlichkeitsverteilung auf 1...n. Die 
Menge aller stochastischen n-Tupel wird als n-Simplex bezeichnet 


An := {peR”|p stochastisch } 


Eine (m x n)-Matrix P € maätmn(R) wird stochatisch (oder genauer: 
spalten-stoschastisch) genannt, falls alle Spalten von P stochastische m- 
Tupel sind: 


P stochastisch => Vjel...n : co,(P) € Am 


Zunächst betten wir die oben ausgeführte Betrachtung (zu Übergangsma- 
trizen) in unsere bisherige Theorie der Laplace-Räume ein. Die dort vorge- 
stellten Ergebnisse dürften wenig überraschen - sie entsprechen genau der 
Intuition die man vom Übergangsprozess hat. Um diese Art von Prozessen 
weiter zu untersuchen, werden wir aber zunächst Methoden der linearen Al- 
gebra aufbauen müssen. 


Satz 9.2: 
Seien 1<m,neN dann betrachten wir den Raum aller (m + 1)-Tupel mit 
Einträgen aus 1...n und bezeichnen diesen, mit 


In en) | Velen: el.:n} 
Ist nung € A, ein stochastisches n-Tupel und ist für jedes k € 1...m eine 
quadratische, stochastische Matrix P, € mat„(R) gegeben, dann erhalten 


wir einen Laplace-Raum (Syn, Pm) unter der Wahrscheinlichkeitsverteilung 
Pım : Sm > R wobei 


Ds er Bien] als 


Ist nun k€0...m, dann definieren wir die Zufallsvariable w, auf $S,, die in 
jeder Folge se 5, den Zustand im k-ten Schritt auswertet 


wo: Sm —1...n : (80,815::-,5m) > Sk 
Sind a,b €l...n dann schreiben wir, wie in der Stochastik üblich, auch 


{wr =a} für die Menge w, !(a) = {se Sm |wr(s) = a}. Und für diese 
gelten dann die folgenden Aussagen: 
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(i) Si 0 <k< m vorgelegt und zu jedem iE€ 0...ksienay,el...n 
gegeben. Dann ist die Wahrscheinlichkeit die anfänglichen Zustände 
(a0, @1,...,Q;) zu beobachten unabhängig von m, denn es gilt: 


k 
Dm (N en ) = Prlax,ax-ı] ... Pılaı, ao] qlao] 


i=0 


(ii) Und sind a, bE1l...n, dann ist die Übergangswahrscheinlichkeit, dass 
im k-ten Schritt (k € 1...m) Zustand a in Zustand b übergeht gerade 


Deere. = Plbial 


(ii) Sil<k< mund (ao, Qaı,...,ax) eine vorgelegte Folge von Zuständen 
a; €1...n. Mit V bezeichnen wir die Menge aller se S,„, mit dieser 
Vergangenheit, also V := {wo = ao N: N wr-ı = ax-ı }. Dann hängt 
die Wahrscheinlichkeit im k-ten Schritt im Zustand a; anzukommen 
nur vom Zustand ax-ı ab, nicht von der ganzen Vergangenheit V. 
D.h. ist pm(V) #0 dann gilt 


nei | VY) ee er) 


Beweis: 

Wir beweisen die Aussage durch Induktion über m: Der Fall m = 1 ist die 
Tatsache, dass r := Pıq € A„ wieder stochastisch ist, was leicht nachzurech- 
nen ist und was wir später etwas allgemeiner zeigen werden. Im Induktions- 
schritt m — 1— m können wir voraus setzen, dass jedes (Sm-1;,Pm-ı) ein 
Laplace-Raum ist. Dann rechnen wir nach, dass 

















n n 
> pm) = DD), Plsm+1, 5m] -- Pals2, sı] Pılsı, so] also] 
seSm so=1l Sm-= 
n n Be 
== 3 BR > Pn\sm+1; Sm| --- Pals>, sı > Pı|sı, so] also] 
sı=l Sm za} 
n n 
= > Re 3 P[Sm+1: Sm] -: Palsa, sı] r|[sı] 
sı=l Sm 


D.h. die Summe über alle pm(s) (wobei s € Sm) mit Ausgangsverteilung 
q ist wiederum die Summe über pm-ı(s) (wobei sE€ Sm-ı) mit Ausgangs- 
verteilung r. Nach Induktionsvoraussetzung ist diese aber 1 und damit ist 
(Sm;Pm) selbst ein Laplace-Raum. Wir beweisen nun die Aussage (i) des 
Satzes 


k 
Dm (N Id ) =: Prag; a1] :-- Pilei;@o]alao] 


i=0 
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Dazu bezeichnen wir R; := P;la;, ax-ı] :. : Pılaı, ao]g[ao] und weiter auch 
rli| := Perılö, ar). D.h. r = (r[l],...,r[n]) € An ist die ax-te Spalte von 
P,ı] und damit ein stochastisches n-Tupel. Schließlich kürzen wir noch die 
oben genannte Teilmenge V; := {wo =ao}N---N{wg =ax } C Sm ab. Mit 
diesen Bezeichnungen werten wir dann diese Wahrscheinlichkeit aus 


n n 
> =) Dalo as Ras eane) 


Sk+1=1 sm-=1 


Pm(Vr) 


n n 
= ), +), Palm; Sm-1]-- - Pa+ılsetı, a2] - - - Polao] 


sk+ı=l  Ssm=l 
n n 
= > ee > AR Si] Be ‚r|sk+1] - Rı 
sk+1=1l sm=l 





= Rk: >  , Pmlsms Sm-1] - .  Pr+2[s442; SkHılr[sc4] 


sk+1=1l Ssn=l 


Die Summe ist einfach die Gesamtwahrscheinlichkeit von (Sm-k-1, Pm-k-1) 
zur Ausgangsverteilung r und damit gleich 1. Daher ist pm(V;) = Rı wie 
behauptet. Für Aussage (ii) betrachten wir der Einfachheit halber m = k 
(im Fall k < m treten nur weitere Faktoren auf, die aber in den folgenden 
beiden Ausdrücken gleich lauten). Zunächst werten wir p.(w_ı = a) aus. 
Dies ist also der Ausdruck für die Gesamtwahrscheinlichkeit, in dem s£_ı 
durch a ersetzt wurde: 


> ee > > P.|sx, a] Pr-ı la, sk-2]  - Pılsı, solq[sol 


so=1 el s£=1 
n n n 
= > P.|sx, a] > Brene > P,-4le; sk_2] nase Pı [sı, so]g[so] 
sl so=1 s£_2=1 
n n 
=: 1: > Den > P.-ıla, Ska] ...Pılsı, so]g[so] 
so=1l SE =l 


Letzteres, da die vordere Summe einfach über die a-te Spalte von P; läuft 
und daher gleich 1 ist, da P} stochastisch ist. Als zweiten Baustein betrachten 
wir pr (w; = b und w;,_ı = a). Dies ist der Ausdruck für die Gesamtwahr- 
scheinlichkeit in dem s;. durch b und s;_ı durch a ersetzt wurde. Er lautet: 


> ke >> P;b, a] P;_ıla, sk_2] ... Pilsı, so|g[sol 


so=1 s£_2=1 
n n 
= Plbal),-- I, Pr-ılasx-2]... Pılsı, solalso] 
so=1 s£_2=1 


= P:lb, al: pr(wr-ı = a) 
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Ist p(wr_ı = a) # 0 dann ist also die bedingte Wahrscheinlichkeit von 
wr = b unter der Bedingung w;_ı = a definiert als der Quotient 


mw. =b und wr._1 = a 
Dmlar =b|uwr_ı =a) = Pm(wx = . ) = P.lb,a] 
Pm(wr-ı = a) 





Nachdem nun (i) und (ii) gezeigt wurden, folgt die Behauptung (iii) sofort: 


Pmtwr =aRtMNVk-1) _ Pm(Vr) 
Pm(Vr-1) u Pm(Vr-ı) 
P; [ar, ar_ı] DR Pı laı, aolqlao] 
P._-ılax-ı, ar_a] . Pı laı, aolqlao] 


= Prlar,ar-ı] = Pmlwr = ar | wr-ı = Qx-ı) 





Dm(wr = ax | Vr-ı) 

















Bemerkung 9.3: 

Die in dem Satz mit (iii) nummerierte Eigenschaft nimmt man als Definition 
für den Begriff einer Markov-Kette: Sei (S,p) ein Laplace-Raum und seien 
die X,:S — R Zufallsvariablen auf $ (wobei k€EO...m oder ke N). Ist 
nun 1<kund a= (ao,aı,...,ar) € R*+! dann bezeichnen wir 


k—1 


Yo) = (1 =%} 
i=0 


Dann nennen wir die Folge von Zufallsvariablen (X,) eine Markov-Kette 
auf S, falls für alle 1< k und alle (ao, aı,...,a,) € R"+! gilt 


p(V(a)) = 0 oder p(Xr =ar |V(a)) = p(Xr = ar | Xr-ı = ax-ı) 


Anschaulich gesprochen bedeutet das, dass die Auswertung von X, nur von 
dem bisherigen Zustand X,_ı abhängt, also kein Gedächtnis hat. Mit diesem 
Begriff hätte man (iii) also auch wie folgt formulieren können: ist q € An 
und sind die (P,) € mat„(R) stochastische Matrizen, dann ist die Folge (w;.) 
der angenommenen Zustände eine Markov-Kette. 
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Komplexwertige Vektoren: 

Wie der R” eine Algebra über dem Grundkörper R ist, ist C”” eine Alge- 
bra über dem Grundkörper © - vergleiche dazu 2.2. Die Verknüpfungen der 
Addition, Multiplikation und Skalarmultiplikation lassen sich wörtlich über- 
tragen, lediglich R muss jeweils durch © ersetzt werden. Das Skalarprodukt 
gibt es jetzt aber in 2 Fassungen: einmal bilinear und einmal sesquilinear 
(d.h. linear im ersten (w) und konjugiert-linear im zweiten (z) Argument). 








Seien z= (21,...,2m) und w = (wı,...,Wm) € C”” dann setzen wir: 
wez := wızı +wa2z2 +: + WmZm 
woz := W121 + w222 ++ WmZm 








m 
lzll := vzoz = al? 
i=1 


Die natürliche Norm ||z|| ist aufgrund der Konstruktion von z02z wieder eine 
positive, reelle Zahl. Sie ist aber nicht die einzige interessante Norm auf C”. 
Ganz analog kann man für jedes 1 <p € N und sogar für p = © weitere 
Normen auf C”” einführen: 


m 


lzlı = Wal 


i=1 


1 
m p 
ee (Ir) 
i=l 


max{lz;||sei...m} 


IIz1I 


Man beachte, dass ||z]|o=||z|| gerade wieder die natürliche Norm auf C”” ist. 
Und ||z||& wird auch die Supremumsnorm genannt. Allen Normen gemein- 
sam sind die folgenden Eigenschaften für alle ae © und z, we C” 


la|l = al Iz|| 
lw+2l < Jwll+|zl 
lz|| 0 z 0 








Alle Normen auf endlich-dimensionalen Vektorräumen (über lokal-kompakten 
Körpern) sind aber äquivalent. In unserem Fall gelten für 1 <p<q<w 
beispielsweise stets die folgenden Abschätzungen 


de 
Izlla <s Izl» < mr ® Ilzl. 
(wobei wir der Konsistenz halber 1/00 = 0 gesetzt haben). Und das bedeu- 
tet, dass alle Normen denselben Konvergenzbegriff definieren. D.h. konver- 
giert eine Folge (2,2) < C” in der einen Norm, dann konvergiert sie bereits 


bezüglich aller Normen auf ©”. Insbesondere gilt 


(n)>2 = (mm -2|p) 20 
=> viel...m: (in) 2% 
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Matrixalgebra: 
Lineare Abbildungen C” — C” können durch (mx n)-Matrizen repräsentiert 
werden. Eine Matrix A € mat„,n(C) = (C”)” notieren wir dabei in der Form 


a1 a12 ++» A],n 

a2,1 Qa2,2 See a2,n 
A, = (5) = R . . 

Am,ı Am2 +-- Am,n 


Die i-te Reihe (wobeii € l...m) von A bezeichnen wir mit row;(A), die j-te 
Spalte (wobei je€1...n) von A mit col;(A). Und den Eintrag von A in der 
i-ten Reihe und j-ten Splalte bezeichnen wir mit Ali, 5] 


row;(A) = (ai, FI Pre Aa) er 
col;(A) d— (01,5,0%7;: ei) e 1” 
Ali, 5] = GW; € C 


Die Matrix A wird dabei zur linearen Abbildung A : C” — C” durch Matrix- 
Vektor-Multiplikation z ++ Az. Und mit Hilfe der gerade eingeführten Nota- 
tion, lässt sich diese schreiben, als 


rowı(A) ez 
rowa(A) ez 

Az = j e C” 
LroWwm(A)ez 


Ist nun B € mat, „(C) eine weitere Matrix, dann lässt sich auch die Matrix- 
Multiplikation BA € mat,„(C) notieren, als 


BA = (row;(B) e col,(A)) = Beoh(A) == Beoln(A) 


Natürlich lässt sich mat n(C) mit C”"*” identifizieren (es handelt sich um 
einen Vektorraum-Isomorphismus, die Multiplikation ist eine andere). Und 
damit kann man die p-Normen (für 1<p< x) auf die Matrizen übertragen: 


Ale := |D,) 1A 51P 


i=1 j=1 


Interessanter ist jedoch die folgende Norm, die auch also Operatornorm oder 
Spektralnorm auf matmn(C) bezeichnet wird: 


II A Ilop := supt Az | ze C* mit ||z]|=1} 
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Man hätte dies natürlich auch bezüglich irgend einer anderen p-Norm definie- 
ren können, aber das macht keinen wesentlichen Unterschied. Wichtiger ist, 
dass die Operatornorm nicht nur eine Norm ist, sondern nach Konstruktion 
auch submultiplikativ ist: D.h. es gilt für alle ze C” und alle Be mato,m(C) 


Az 
II BA |lop 


< | A |lop - IIzl| 
< || 3 |lop : | A |lop 
Der Ehrlichkeit halber sollte man auch sagen, dass es weitere submultiplika- 
tive Normen gibt, wie etwa die 2-Norm || Alla oder Ym x n- || A||o. Ein um- 
fassendes Skriptum zu diesem Thema findet man online bei [Jan Falkenhain, 
Operatornormen]. Wiederum ist matn,n(C) endlich-dimensional (Dimension 
mn) so dass alle Normen äquivalent sind. Für die Operatornorm findet man 
sofort die folgenden Abschätzungen: 

Ale s II A |op s IAllı 
Wie alle Normen, induziert auch die Operatornorm einen Konvergenzbegriff 
auf dem Raum aller Matrizen matm,n(C). Ist (A;,) eine Folge und A eine 
(m x n)-Matrix, dann 


(A)>A = (|| Ar — A ||op) > 0 
— Viel...m,Vjel...n : (Arf,5]) > Alt, 5] 


Satz 9.4: 
Ist A eine einzelne und (A,) < mätm,n(C) eine Folge von (mx n)-Matrizen, 
dann gelten die folgenden Aussagen: 


(i) Konvergiert (A,) > A und sind Z € matem(C) und R € mat„,r(C) 
zwei weitere, passende Matrizen, dann konvergiert auch die Folge 


(LA,R) > LAR 


(ii) Sind Se gl,,(C) und T € gl,(C) quadratische, invertierbare Matrizen, 
dann sind die folgenden beiden Aussagen sogar äquivalent 


(a) (Ar) > A 
(b) (SA,T) > SAT 


Beweis: 

Wegen der Submultiplikativität ist (i) klar: LA,R — LAR = L(A, — A)R 
und damit || LARR = LAR ||op < || 2 |op = 11 Ar — A |lop : II R |Iop 0, da 
nach Vorausetzung ja (AR) — A konvergiert. Damit folgt insbesondere die 
Implikation (a) — (b) in (ii). Und die Umkehrung (b) —> (a) folgt dann 
ebenso, da (Ar) = (S"1(SA,T)T-1) > S-I(SAT)T"! = A. 
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Eigenwerte: 
Ist A € mat„(C) eine quadratische Matrix, dann betrachten wir eine Glei- 
chung der Form (wobei A € C und ze C” 


Az = Az 


Diese Gleichung ist offensichtlich äquivalent zu (A—- AE) = 0, wobei E die 
Einheitsmatrix (also das Einselment von mat„(C)) bezeichnet. Eine Lösung 
besteht also offensichtlich immer: z = 0. Etwas Neues ergibt sich also nur, 
wenn man nach nicht-trivialen Lösungen z # 0 sucht. In diesem Fall ist 
A-—AE also nicht-injektiv und muss daher Determinante 0 haben 


ca(\) := det{A-AE) =; 0 


Dabei nennen wir ca(t) := det(A-tE) das charakteristische Polynom von 
A. Offensichtlich hat cA(t) den Grad n und man sieht schnell, dass gilt 


al) ENDE IT Lee dei 


Wie wir gerade gesehen haben, hat die Gleichung Az = Az genau dann eine 
nicht-triviale Lösung z #£ 0, falls A eine Nullstelle davon ist. Die Nullstellen 
von ca(t) werden daher Eigenwerte von A genannt. Die Menge aller Eigen- 
werte von A heißt das Spektrum von A 


Spec(A) := {AEeC|cıaR)=0} 


Die Lage des Spektrums von A ist aber nicht beliebig: zunächst gilt für alle 

A € Spec(A), dass |A| <|| A ||op ist. Und weiter gilt der Satz von Gerschgorin 

[Friedberg, Insel, Spence; Linear Algebra; 5.21] nach dem jeder Eigenwert 

von A in einer Kreisscheibe von Radius r; = %,,, Ali, j]| um Ali, i] liegt: 
Spec(A) < KJfzeC||z-Al,i]|< ri} 


i=1 


Da © algebraisch abgeschlossen ist - das ist überhaupt der Grund warum wir 
von R auf C erweitert haben - zerfällt das charakteristische Polynom 


cat) = -D" ]J &-a”® 


AEspec(A) 


Die dabei auftretende Potenz m(AX) wird algebraische Vielfachheit des Eigen- 
wertes A genannt. Wie bezeichnen sie mit 


alem(A, u) := max k EN (X) | calt) } e N 
Ist ze C” ein Tupel, mit Az = Az, dann nennen wir z einen Eigenvektor 


von A zum Eigenwert A. Die Menge aller Eigenvektoren von A zu A wird als 
Eigenraum von A zu X bezeichnet und ist offenbar ein Unterraum von C” 


Eig(A,A) := kn(A-AE) = {ze Ü" | Ar = Az} 
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Die Dimension dieses Unterraumes wird als geometrische Vielfachheit be- 
zeichnet, sie kann die algebraische Vielfachheit nie übersteigen 


geom(A,u) := dim(Eig(A,A)) < algm(A, u) 


Ein Beweis findet sich in [Friedberg, Insel, Spence; Linear Algebra; 5.12]. Es 
kann jedoch sein, dass mindestens ein Eigenraum zu klein ausfällt (d.h. dass 
die geometrische echt kleiner ist, als die algebraische Vielfachheit). In diesem 
Fall ist eine hat A keine Diagonalform, sondern nur eine Jordan-Normalform. 

Wir wollen hier aber nur auf den Fall der Diagonalisierbarkeit einghen: 
Gibt es genügend viele Eigenvektoren, dann kann man eine Basis aus diesen 
bilden und offensichtlich nimmt A in der Basis ihrer Eigenvektoren Diago- 
nalform an. Genauer gesagt sind die folgenden beiden Aussagen äquivalent 


(a) VA E Spec(A) gilt geom(A,AX) = algm(A, A) 


(b) Aist diagonalisierbar: d.h. es gibt eine invertierbare Matrix T € gl, (C) 
und Zahlen Aı,...,A, so dass gilt 


SR: 0 
TAT 2. 
0 >“ 


In diesem Fall sind die A, natürlich die (nicht notwendig verschiedenen) Ei- 
genwerte von A, d.h. es ist Spec(A) = I Aı,...,An }. Und die i-te Spalte 
2; = col;(T) von T ist ein Eigenvektor von A zum Eigenwert X;. Man beach- 
te, dass dies gar nicht so selten ist - nach [Friedberg, Insel, Spence; Linear 
Algebra; 6.17 und 6.18] sind weiterhin äquivalent: 


(a) A ist normal, d.h. bezeichnet A! die transponierte und konjugierte 
Matrix von A, dann gilt ATA = AA! 


(b) A ist unitär diagonalisierbar: d.h. es gibt eine invertierbare Matrix 
T e gl,(€C) mit T! = T! und Zahlen Aı,...,An so dass gilt 


0 0 
T-!AT ne 
0 An 


Diagonalisierung von Matrizen ist insbesondere hilfreich um Matrixpotenzen 
auszuwerten. Ist T"!AT = A die oben genannte Diagonalmatrix, dann gilt 
offenbar FIAT = TAATTTJART : TFJAT= (DAT) = Male 


A 0 0 
k 
aaa)? ® a 
0 Au 
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Allgemeiner kann man A damit in ein beliebiges Polynom f € Ct] einsetzen 
(durch Reihenentwicklung sogar in eine beliebige holomorphe, auf ganz C 
definierte Funktion f € ©(C)) und für dieses f gilt dann: 


FA) 0 0 
ka =T 0° f@») a 
0 An) 


An dieser Darstellung erkennt man auch, dass die Folge (A") der Matrixpo- 
tenzen genau dann konvergiert, wenn die Folgen der Potenzen der Eigenwerte 
(AF) konvergieren. Und dies ist offenbar der Fall, wenn |A;| < 1 ist (in diesem 
Fall gilt (AP) — 0), oder wenn A; = 1 ist (in diesem Fall ist (A?) = 1). 

Doch diese Aussage lässt sich nach [Friedberg, Insel, Spence; Linear Alge- 
bra; 5.18] wie folgt auf nicht-diagonalisierbare Matrizen verallgemeinern: Für 
eine beliebige quadratische Matrix A € mat„(C) sind die folgenden beiden 
Aussagen äquivalent: 


(a) Die Folge (A") konvergiert, d.h. es gibt eine Matrix L € mat„(C) so 
dass (A) > L gilt 


(b) Es ist Spec(A) C {ze C | |z| <1}U{1} und ist 1 € Spec(A) dann 
gilt auch algm(A,1) = geom(A,1). 


Beispiel 9.5: 
Wir betrachten den Fall n = 2, d.h. eine quadratische (2x 2)-Matrix A. Wie 
üblich bezeichnen wir deren Koeffizienten mit a, b, cund d 


ab 
ei 
Das charakteristische Polynom lautet dann ca(t) =t? - (a+d)t+ (ad -— be) 


und man erkennt sofort die Spur, respektive Determinante von A darin. Die 
quadratische Gleichung ca(A) = 0 lässt sich bekanntlich lösen durch 








Aa = zs(a+d+ö) wobei 6 := Yla-d)?+4bc 


D| m 


Dies sind also die Eigenwerte von A. Die zugehörigen Eigenvektoren findet 
man durch Lösung des entsprechenden Gleichungssystems Ae; = Aje; zu 


a—-d+ö d-a+ö 
ea = %c und @& = Ip 


Die Transformationsmatrix T ist also gegeben, durch T = (eı ea), wobei die 
e; in den beiden Spalten von T stehen. Damit nimmt T-!AT = A Diagonal- 
gestalt an und wir können die Matrixpotenzen von A explizit berechnen 


Ai, (d-a+ö)!&+(a-d+s)A Ar = Ah) 
9 2e(Ak — Ak) (a-d+8)M +(d-a+6)A 
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Satz 9.6: 


Gi) 


(i 


— 


Sei Pe mat„(R) eine reelle, quadratische Matrix mit positiven Ein- 
trägen P[i,j] > 0 und bezeichne e := (1,1,...,1) € R” dann gilt 


P stochastisch &> P*= e 


wobei P* die transponierte Matrix von P bezeichnet. Ist P stocha- 
stisch, dann ist also insbesondere 1 € Spec(P) ein Eigenwert von P. 


Die Menge der stochastischen Matrizen ist konvex, d.h. sind P und 
Q € matmn(R) stochastische Matrizen und ist @ € [0,1] dann ist auch 
die Matrix aP+ (1-a)Q € matım,n(R) stochastisch. 


Ist P € matmn(R) eine stochastische Matrix und qg € A, ein stocha- 
stisches n-Tupel, dann ist Pqg € A, wieder stochastisch. 


Sind Pe matmn(R) und Q € mat, m (IR) stochastische Matrizen, dann 
ist auch deren Produkt QP € mat „(R) stochastisch. 


Ist Pe mat„(R) eine quadratische, stochastische Matrix undistk e N, 
dann ist auch die Potenz P® € mat„(R.) stochastisch. 


Ist Pe mat„(R) eine stochastische Matrix, dann haben alle Eigenwerte 
von P höchstens den Betrag 1, d.h. es gilt 


SpeP) C {zeC||z| <1} 


Beweis: 


Gi) 


(iii) 


Die j-te Zeile von P* ist nach Konstruktion die j-te Spalte von P, 
d.h. für jel...n gilt: row;(P*) = col;(P). Bezeichnen wir q := P*e, 
dann ist der j-te Koeffizient von q also q; = col,(P)ee=),Pli, 5]: 
1 = ),,Pli,5]. Also ist q = e äquivalent zu ,Pli,j] = 1 für alle 
jel...n. Und das war gerade die Definition von P stochastisch zu 
sein. Ist nun P stochastisch, dann ist damit e ein Eigenvektor von 
P* zum Eigenwert 1 und daher 1 € Spec(P*). Bezeichnen wir B := 
P-NE, dann ist B* = P*— AE. Die Determinante ist jedoch invariant 
det(B) = det(B*) unter der Transposition von Matrizen. Also haben 
die charakteristischen Polynome von P und P* dieselben Nullstellen 
und damit gilt auch 1 € Spec(P). 


Die Aussage ist unmittelbar einsichtig: sei R:= aP + (1- «a)Q, also 
Rli,j] = aPli, 5) + (1- a)Qli, 5]. Wegen « > O0 und1-a > 0 sind 
damit auch alle Einträge R[i, j] von R positiv. Und die j-te Spalte von 
R gegeben, durch col;(R) = acol;(P) + (1 - a)col;(Q) € Am: Die 
Spaltensumme ist wieder gleich 1, daa-1+(1-a):1=1. 


Sei P= (p;;) wobeiiel...mund jel...n uns bezeichne r = Pq 
also r; = 25; pi,jgj > 0. Dann rechnet man nach, dass 


m m n n 


m n 
rn = > PijG = G2_Pis = 4 4 
1 iel jel 


i=1 i=1 j=l j= 


J 


r 


sl 


(iv) Nach Definition der Matrixmultiplikation gilt col;(QP) = Qcol,;(P) 
und da nach Voraussetzung col;(P) € Am ist, folgt aus (i) unmittelbar 
auch col;(QP) € Ay. D.h. QP ist ebenfalls stochastisch. 


(v) Für k=0 ist P®F = E offensichtlich stochastisch. Und der Rest ist klar 
mit Induktion: ist PF stochastisch, dann nach (ii) auch PFt! = PPF. 


(vi) Ist A € Spec(P) ein beliebiger Eigenwert von P, dann gibt es nach 
dem Satz von Gerschgorin enie1...n, so dass |A —- Pli,i]| < r; = 
ji Pli,5] (die Beträge können wir uns sparen, da ja alle Pli, 5] po- 
sitiv sind). Nun gilt aber die Dreiecksungleichung nach unten: 


A-Pii]<s PR] = Mx<V,Pbi=1 
jFi j=1 














Satz 9.7: 

[Friedberg, Insel, Spence; Linear Algebra; 5.25] bzw. [Renyi, Wahrscheinlich- 
keitsrechnung; VEB 1979] Sei P € mat„(R) eine quadratische, stochastische 
Matrix. Wir nehmen an, es gibt eine Potenz P”” von P so dass alle Einträge 
in einer Zeile von P” echt positiv sind, formal 








Im e N Ii€ 1a... 2 VIE le: 2 PP] > 0 


(i) Dann ist 1e Spec(P) C {ze C||z| <1}U{1} und die algebraische 
und geometrische Vielfachheit des Eigenwertes 1 ist 1 


algm(P,1) = algm(P,1) = 1 


(ii) Insbesondere konvergiert die Folge der Matrixpotenzen (PF) und wir 
bezeichnen deren Grenzwert im folgenden mit Z € mat„(R) 


L := lim P* 


ko 


(ii) Damit ist Z eine stochastische Matrix, für de PL=LP=L gilt. Alle 
Spalten von Z sind identisch, d.h. es gibt ein le A, so dass 


(iv) Dabei ist £ € A„ das eindeutig bestimmte stochastische n-Tupel, für 
das Pl =! gilt. Wir nennen £ die stationäre Verteilung oder auch die 
Grenzverteilung von P. 


(v) Ergodensatz: Ist q€ A, ein beliebiges stochastisches n-Tupel, dann ist 
der Grenzwert (P*g) unabhängig von der Ausgabgsverteilung q 


lim Pkg = 


ko 
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Beispiel 9.8: 

Im Fall dass eine Potenz P’”" nur echt positive Einträge hat, ist also alles 
schön. Ist dies nicht der Fall, dann können aber Komplikationen auftreten: 
Den Falln = 2 haben wir bereits für beliebige Matrizen behandelt. Wir 
betrachten nun eine stochastische (3x 3) Matrix P € matz(R). Bezeichnet 
s:=tr(P) die Spur und d := det(P) die Determinante von P, dann ist das 
charakteristische Polynom von P gegeben durch 


cl) = 1-VRH+lLML-sS)t+d) 


Wie wir wissen, gilt für alle Eigenwerte |A| < 1. Im allgemeinen kann P 
aber weitere Eigenwerte vom Betrag 1 besitzen (es ist sogar möglich, dass 
algm(P,1) > 2 und P nicht diagonalisierbar ist). Beispielsweise hat die 
folgende Matrix das charakteristische Polynom (1 — t)(t? + 0.5t + 0.5) und 
damit die Eigenwerte Aı = 1, Aa = —-1 und A3 = 0.5 


05 00 100 
P= [05 01 bzw. A = [0 -1 0 
0 10 0.005 


Die zugehörigen Eigenvektoren von P sind eı = (0,1,1), ea = (0,1,—1) und 
e3 = (-3,1,2) so dass wir die folgende Transformationsmatrix erhalten: 


8:0 [3 33 
T=- |ı ı 1 bzw. EZ 
3% 72 2.00 


Und mit Hilfe der Formel P*F = TAFT! kann man daraus wieder die Ma- 
trixpotenz P*® berechnen. Man beachte, dass PF nicht konvergiert, da der 





Eigenwert Ag = —1 die Konvergenz zerstört 
N 6/2* 0 0 
PF = A 1)" - 2/2 6(1+(-1)*) 6(1- (-1)%) 
3+(-1)* -4/2% 6(1-(-1)%) 6(1+(-1)®) 


Beispiel 9.9: 

Nachdem die Theorie nun etabliert ist, betrachten wir unser erstes, klassi- 
sches Beispiel eines Übergangsprozesses: wir ordnen die Zustände 1 bis 4 als 
Ecken eines Quadrates an. Auf diesem Quadrat krabbelt eine Spinne, die 
in 1 beginnt. In jedem Schritt hat die Spinne eine Wahrscheinlichkeit von p 
sitzen zu bleiben und eine Wahrscheinlichkeit von q eine Kante im Uhrzeiger- 
sinn weiter zu krabbeln. Die Wahrscheinlichkeit, dass die Spinne eine Kante 
gegen den Uhrzeigersinn weiter krabbelt sei ebenfalls q. Insgesamt muss also 
p+2q=1 sein. Ein Zeitschritt in diesem System wird also durch folgende 
stochastische Matrix beschrieben: 


pqadüdag 
p- |epga% 
0..:93:B:-@ 
a0 ap 
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Der Anfangszustand ist (1,0,0,0). Als erstes fragen wir uns mit welcher 
Wahrscheinlichkeit die Spinne nach 2 Schritten immer noch oder wieder in 
Ecke 1 angekommen ist. Dies lässt sich offenbar beantworten, durch 


_ 2pq 
24° 
2pq 


pP? 


je ei ei 


Die Antwort ist also p? + 2q? - dies stimmt mit unserer Intuition überein, 
die Spinne kann entweder zwei mal sitzen geblieben sein p? oder hin und 
wieder zurück gekrabbelt sein 29°. Der Faktor 2 kommt daher, da es zwei 
Möglichkeiten für den Drehsinn gibt. Analog lassen sich auf diese Weise die 
Aufenthaltswahrscheinlichkeiten nach beliebig vielen Schritten für jede Ecke 
berechnen. Die Berechnung wird aber für große Schrittzahlen &k leichter, wenn 
man P zuvor diagonalisiert (mit A := p — 2q gilt): 


vpqg0 qq" OF Ds 10 
apaqa0| _|-ı o 1ı 1|Jo X&X oo|J-ı 0 1 
ip — Oel a a Le Or Se 
qaOdap 10 171 00 071 10 1 


Als nächstes interessieren wir uns für die Frage in welcher Ecke die Spinne 
nach langer Zeit (k — oo) am liebsten sitzt. Wie wir wissen ist die Grenz- 
verteilung £ gerade der Eigenvektor zum Eigenwert 1, wir müssen also die 
Gleichung Pl = l lösen. Und für diese ergibt sich 


1 
Ir ei WEN ne 


MHRrHrHbß 


D.h. alle Ecken sind gleich wahrscheinlich. Wie sollte es auch anders sein? 
Nach unendlich vielen Schritten spielt der Startpunkt keine Rolle mehr (Er- 
godensatz) und dann sind alle Ecken gleichberechtigt. 


Beispiel 9.10: 

Für ihr Risikomanagement verwenden Banken (bis zu) 22 verschiedene Boni- 
tätsstufen bei ihren Kreditnehmern - von AAA bis D (wobei D für Kreditaus- 
fall steht). Über die Jahre hinweg wurden die Übergangswahrscheinlichkeiten 
von einer Kreditstufe in eine andere Kreditstufe gesammelt. Will ein Kun- 
de der Bonität s also einen Kredit über m Jahre Laufzeit, dann berechnet 
die Bank die Ausfallwahrscheinlichkeit des Kredits mit Hilfe von P”e,. Und 
anhand der Ausfallwahrscheinlichkeit werden die Zinsen so berechnet, dass 
der Erwartungswert immer noch für die Bank positiv ist. 
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Um ein konkretes Beispiel geben zu können, betrachten wir 4 Bonitätsstufen 
A bis D. Die (willkürlich gewählte) Übergangsmatrix sei: 


0.80 0.05 0.10 0.00 
0.10 0.75 0.10 0.00 
0.05 0.15 0.60 0.10 
0.05 0.05 0.20 0.90 


Man beachte, dass in diesem Fall also eine 10% Chance besteht, dass ein 
Kredit der Stufe D = 4 wieder bedient werden kann (zu C = 3 wird). Diese 
Matrix besitzt die Eigenwerte Aı = 1, Aa = 0.85, A3 = 0.7 und Ay = 0.5 und 
die zugehörigen Eigenvektoren (in den Spalten von T) 


2 1 2 2 
2 1-2 2 
2 30 -1 -7 
8 -2 1 3 


Sagen wir ein Kunde mit Bonität B = 2 kommt zur Bank und möchte einen 
Kredit von K Euro bei m Jahren Laufzeit haben. Er befindet sich also zu 
Beginn im Zustand b = ea = (0,1,0,0). Der Kredit fällt im k-ten Schritt aus 
(wobei k € 1... m), wenn er am Ende des Schrittes auf Stufe D = 4 gelandet 
ist. Die Wahrscheinlichkeit dafür ist a(k) := (P"b)[4]. Beispielsweise ist hier 
a(1) = 5% (eine unrealistisch hohe Zahl). Im zweiten Schritt ist diese aber 
schon auf a(2) = 11.5% gestiegen. In diesem Modell konvergiert a(k) für 
k — wo gegen 8/15 = 53.3%, wie wir an dem Eigenvektor zu 1 ablesen 
können. 

Bleiben wir unrealistisch: die Bank gewährt den Kredit (wahrscheinlich 
hatte der Kunde einen schicken Anzug). Dann zahlt er am Ende jeden Schrit- 
tes eine Rate R des Kredites ab. Wie hoch muss die Bank die Rate ansetzen? 
Nehmen wir an, ein Kredit der D = 4 erreicht fällt aus (ohne Wiederkehr) 
und vernachlässigen wir die Inflation. Kann der Kredit dann k Schritte lang 
bedient werden beträgt der Gewinn der Bank G(k) =kR-K. Der Erwar- 
tungswert des Gewinns wäre bei maximal m Schritten Laufzeit also 


wobei p(k) die Wahrscheinlichkeit dafür ist, dass der Kredit im (k + 1)-ten 
Schritt ausfällt, aber den k-ten Schritt erreicht hat. Es ist also p(0) = a(l) 
und p(1) = (1-a(1l)):a(2) und p(2) = (1-a(1))(1- a(2)) -a(3) so weiter 
bis p(m — 1) = (1- afl))...(1L- a(m — 1)) -a(m) und schließlich noch 
p(m) = (1-a(l))...(1-a(m)). Allgemein gilt für ke1l...(m-]1) 


p(k - 1)(1- a(k))a(k +1) 


p(k) = a(k) 
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Da die Ausfallwahrscheinlichkeiten a(k) = (P*b)[D] berechnet werden kön- 
nen, kann die Bank auch rekursive p(k) berechnen. Damit die Bank keinen 
Verlust macht, muss gelten E(G) > 0 und dies lässt sich umformen zu einer 
Bedingung für die zu zahlenden Raten: 


R 1 
2 m 
K k=ı kp(k) 





Bemerkung 9.11: 

Auch wenn es in der Literatur immer wieder zu sehen ist: die Hardy-Weinberg 
Gesetzte der Genetik sind kein Beispiel für Übergangsmatrizen! Es handelt 
sich dabei vielmehr um ein nicht-lineares (quadratisches) Problem. Wir be- 
trachten 1 Vererbungsmerkmal mit zwei möglichen Ausprägungen (Allelen) 
- zum Beispiel den Augenfarben braun und blau (in diesem Fall ist braun 
dominant). Wir gehen davon aus, dass das Merkmal keinen Einfluss auf das 
Fortpflanzungsverhalten hat (keine Selektion), dass eine zweigeschlechtliche 
Fortpflanzung stattfindet und dass weibliche und männliche Nachkommen 
gleich häufig sind. Der Genotyp werde mit GG, Gg bzw. gg bezeichnet, wobei 
G für das dominante und g für das rezessive Allel steht. Dann gibt es 6 ver- 
schiedene Typen in der Population: (f,GG), (£,Gg), (f,gg), (m,GG), (m,Gg) 
und (m,gg) wobei f/m für das Geschlecht steht. Wir bezeichnen die Häufig- 
keiten dieser Typen in der Population mit fi, fe, fs, mı, ma und mz Aus 
jeder Paarung gehen nach den Mendel’schen Gesetzen Nachkommen einer 
bestimmten Häufigkeitsverteilung vor: 


f m 1GG | Gg | &g 
GG |GG| 1 0 0 
GG | Gg | 1/2 | 1/2 | 0 
GG | gg 0 1 0 
Gg | GG | 1/2 | 1/2 | © 
Gg | Gg | 1/4 | 1/2 | 1/4 
Gg | gg 0 11/2 |1/2 
gg \GG| 0 1 0 
gg | Gg | 0 |1/2|1/2 
ge 0 1 























D.h. der reinerbige Genotyp GG wird durch die Paarung fimı sicher und 
zu 50% durch fima und famı und zu 25% durch fama gezeugt. Man be- 
achte, dass davon nur die Hälfte der Nachkommen weiblich (bzw. männlich) 
sind, aber auch 2 Nachkommen pro Paar geboren werden müssen, um die 
Population konstant zu halten. Die Verteilung (fi, f3, f3, m/, my, m3) in der 
nächsten Generation lautet daher: 





ne fm + Z(fim2 + fon) + Sfoma 
f = fımz + famı + Schıma H famı + fama + famz + f3ma) 
f = Sams + Slhoms + f3ma) + fm 
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Desgleichen gilt natürlich m! = f/ da beide Geschlechter gleich häufig ge- 
boren werden. Damit dies wieder eine Verteilung wird muss man allerdings 
noch normieren, d.h. multiplizieren mit 2/a, wobei 


3 3.38 
DH Nm 
i=1 


i=1 je1 


Man sieht an diesem Bildungsgesetz, dass der Anfangszustand sehr wohl eine 
Rolle spielt - kommt nur gg in der Population von, dann wird niemals GG 
auftreten. Oder noch extremer: hat die Population keine Weibchen, so stirbt 
sie bereits in der nächsten Generation aus. Diese Markov-Prozeß ist also nicht 
ergodisch, er entwickelt sich nicht zu einem stabilen Gleichgewichtszustand 
und kann daher nicht von einer Übergangsmatrix stammen. 

Dieser Prozess hat aber durchaus stabile Zustände (fı, fa, fmı, ma, ma). 
Offensichtlich sind (1,0,0,1,0,0)/2 und (0,0,1,0,0,1)/2 aber es gibt auch 
den nicht ganz so offensichtlichen stabilen Zustand (1,2,1,1,2,1)/8 in dem 
der gemischte Genotyp doppelt so häufig ist, wie die beiden reinerbigen. 

Das Hardy-Weinberg-Gesetz besagt nun, dass dieses System nach spä- 
testens zwei Schritten in einem stabilen Zustand angekommen ist. D.h. be- 
zeichnet f**” := (f”)' dann gilt für alle k > 2 bereits f” = f(”. Dies 
lässt sich, mit ein bisschen Mühe, unmittelbar nachrechnen. 
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Kapitel 10 
Mengenringe 


Bei Laplace-Räumen konnte jedem Elementarereignis se S eine Wahrschein- 
lichkeit p(s) € [0,1] zugeordnet werden. Beim Boule-Spiel aber rollt man eine 
Kugel und fragt sich wo die Kugel zum Stehen kommt. Vereinfacht gesagt 
wäre der Freignisraum also $ = R* ein Kontinuum. Wir haben also folgen- 
des Problem: die Kugel kann an überabzählbar vielen Punkten landen und 
damit hat jeder einzelne Punkt s > 0 eine Wahrscheinlichkeit von p(s) = 0 
einzutreten. Erst ein echter Abschnitt auf der Zahlengeraden [a,b] < R*+ 
hat eine Wahrscheinlichkeit p([a,b]) > 0 einzutreten. Aus der Schreibweise 
p(A) wird damit also eine Notwendigkeit. 

Wir müssen also dazu übergehen nicht mehr den Elementarereignissen 
s € 5 selbst eine Wahrscheinlichkeit zuzuordnen, sondern einer ganzen Teil- 
menge A C S. Und die Kolmogorov-Eigenschaften werden wir als Forderun- 
gen an p stellen müssen. Z.B. sollte p als Wahrscheinlichkeitsfunktion additiv 
sein pf([ AU B) = p(A) + p(B) (für ANB =). Damit ist eine Wahrschein- 
lichkeitsfunktion p : A > p(A) also ein Spezialfall einer Volumenfunktion 
u: AH u(A), die den Teilmengen eines Raumes 5 ihr Volumen zuord- 
nen soll. So gesehen ist die Wahrscheinlichkeitstheorie also in die Maßtheorie 
übergegangen und erbt erst einmal die 2 Schwierigkeiten der Maßtheorie: 

1. Problem: Es ist klar, dass es Mengen gibt, die unendlich großes Volu- 
men haben, z.B. hat die ganze Ebene S = R? unendlich großen Flächenin- 
halt. Die allgemeine Maßtheorie muss also den Fall u(A) = x erlauben. In 
der Stochastik kommt das aber nicht vor, da wir maximal p(5) = 1 bekom- 
men. 

2. Problem: Damit nicht genug: es wäre halb so wild, wenn man zumin- 
dest jeder Teilmenge A C R” immer eine Wahrscheinlichkeit p(A) zuordnen 
könnte. Doch da kommt auch schon das nächste Problem daher: es ist mög- 
lich eine Kugel so geschickt zu zerlegen, dass man aus den Bruchstücken 
zwei gleiche Kugeln zusammensetzen kann! Ist K die Kugel, dann wäre also 
u(K) = 2u(K) und damit u(K) = 0, was keinen Sinn ergibt. Das liegt daran, 
dass die Bruchstücke so fein zersplittert sind, dass man ihnen kein sinnvolles 
Volumen mehr zuordnen kann. Wir müssen uns also mit der Tatsache abfin- 
den, dass nicht jeder Teilmenge A C R? ein sinnvolles Volumen zugeordnet 
werden kann. Und damit müssen zunächst diejenigen Mengen aussortieren, 
die brav genug dafür sind. 
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Wir wollen hier die Maßtheorie noch nicht in voller Breite darstellen, sondern 
deren Konstruktionen nur im Endlichen nachvollziehen. So wie die Laplace- 
Räume ein erster Schritt in Richtung Maßtheorie waren, so sind die Men- 
genringe ein zweiter Schritt. Die Maßtheorie beschäftigt sich dann mit soge- 
nannten o-Algebren, die eine transfinite Version der Mengenringe sind (sie 
erlauben auch abzählbare Vereinigungen von Teilmengen). Darauf gehen wir 
aber erst im nächsten Kapitel ein. 


Bemerkung 10.1: Banach-Tarski-Paradoxon: 
Für die Interessierten hier ein paar Details zur Zerlegung der Kugel in 
Einzelteile, die durch Zusammensetzen zwei identische Kugeln ergeben: Zu- 
nächst betrachten wir die freie Gruppe mit 2 Erzeugern x und y. Das be- 
deutet die Elemente von Fa sind Ausdrücke der Form aıa2...qn wobei 
a; € [SE ur ist und x und x” bzw. y und y-! nicht aufeinan- 
der folgen dürfen - die Worte sind gekürzt. 

Formal erhält man Fa durch folgende Konstruktion: wir betrachten ein 
Alphabet bestehend aus 4 Buchstaben A := { u, w, v, v’ } und betrachten die 
Menge der Worte über diesem Alphabet: 


A’ := [e}Uflaraa...m|1I<neN,a; € A} 


(dabei ist e das leere Wort). Offenbar ist A* ein Monoid unter dem aneinan- 
derhängen (Konkatenation) von Worten mit neutralem Element e. Auf dieser 
Menge erklären wir die Relationen uw’ = e und vv’ = e (durch schneiden mit 
einer geeigneten Äquivalenzrelation). Dann ist e = [e], x = [u] und y = [v] 
mit den inversen Elementen x”! = [w] und y"! = [v/]. Die Verknüpfung 
wird durch die Konkatenation induziert: [a][b] = [ab]. 

Man beachte, dass diese Gruppe eine bemerkenswerte Eigenschaften hat, 
die wir später ausnutzen werden: Bezeichnen wir die Menge der Worte mit 
dem Anfangsbuchstaben a € { ct yy! } mit 


F(a) := {a1aa...mn €EFal|aı =a} 


dann darf der zweite Buchstabe aa dieser Worte nicht das Inverse von a sein, 
also: aa # a! - sonst wäre das Wort ja nicht gekürzt. Ist aa2...an € F(a), 
dann beginnt a=laag...an = Q2...Q, also mit dem Buchstaben as £ a. 
Daher gilt, z.B. zF(x”!) = {[e} U F(z!) U F(y) U F(y”t). Und damit 
erhalten wir 


Fa = {e}UF(a)UF(e})UF(y)UF(y}) = F(x)UxF(x) 


Als zweite Gruppe betrachten wir die Rotationen des R°, d.h. es si R = 
{Tematz(R) |T*T=1=TT*}. Offenbar ist R eine Gruppe unter der 
Multiplikation von Matritzen. Wir betten nun #3 in R ein: Sei X die Rota- 
tion um die x1-Achse um den Drehwinkel cos”!(1/3) und Y die Rotation um 
die x3-Achse um denselben Winkel. Wichtig ist hierbei, dass der Drehwinkel 
ein irrationales Vielfaches von z ist und die beiden Drehachsen senkrecht 
zueinander liegen. Dann erhalten wir einen injektiven Gruppenhomomor- 
phismus durch Fortsetzung von 


PR>R:zerX und y+>Y 
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D.h. wir haben ein isomorphes Bild von Fa in R gefunden. Und dieses erfüllt 
damit dieselbe, bemerkenswerte Zerlegung wie Fa selbst. 

Seinun K := {keR?|||k||< 1} die 3-dimensionale Kugel. Dann ope- 
riert Fa auf K vermöge der Rotationen X und Y. Nach dem Auswahlaxiom 
können wir aus jedem Orbit einen Punkt auswählen. Wir wählen also eine 
Teilmenge J < K so dass 


Jo ig jr Pj 


Damit definert man dann die folgenden Bruchstücke von K: A} := F(x)J U 
JUB, Aa := F(x"!)J\B, Ag := F(y)J und Ay := F(y’!)J. Dabei ist 


B: = u I 
i=1 


Damit ist dann K = Aı UA2aU Az U AAUN wobei N C K noch eine kleine 
Nullmenge ist, die für das Volumen keine Rolle spielt. Für diese Mengen kann 
man dann zeigen, dass x Aa = AaU Az U Ay und yA4 = Aı U Aa U Ay ist und 
damit können wir zwei Kugeln aus diesen Bruchstücken zusammen setzen: 


K = AAUxAsUN und K = AzUyAyUN 


Definition 10.2: 

Sei $ #D eine beliebige, nicht-leere Menge - wie immer interpretieren wir 
S als den Ereignisraum, in dem die Versuchsergebnisse liegen können. Und 
sei A< P(S)={A|A CC S$} eine Menge von Teilmengen von S. Die Teil- 
mengen A € A von $ interpretieren wir, als die zulässigen Freignisbereiche. 
Dann definieren wir die folgenden Begriffe: 


(i) Wir nennen A einen Mengenverband, falls ® in A enthalten ist und A 
abgeschlossen unter Vereinigung und Differenz von Mengen ist: 
(1) de A 
(2) AABEA = B\AEA 
(3) aABEA = AUBEA 


Und setzen wir C := AUBeEA, dann gilt auch ANB=C\((C\ 
A)U(C\B))€ A, so dass in diesem Fall weiterhin gilt: 


(4) ABeA— AnBeA 


(i) Wir nennen A einen Mengenring, falls ® in A enthalten ist und A 
abgeschlossen unter Vereinigung und Komplement (CA := $ \ A) von 
Mengen ist. D.h. falls gilt: 

(1)deA 
2) AeA = CAEA 
(3) aABEA = AUBEA 
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Wegen $= Che Aund ANB=C(CAUCB) € Abzw. B\A= 
BNCAe A erfüllt ein Mengenring stets die weiteren Eigenschaften: 


(4) SEA 
5) aBEeA => ANBEA 
(6) ABEA = B\AEA 


(iii) Ist A ein Mengenverband, dann nennen wir eine Funktion 1: A— R* 
einen Inhalt auf A, falls gilt: 


1) ad) =0 
(2) AA BeAmit ANB=0 — u(AUB)=u(A)+u(B) 


In diesem Fall nennen wir das Tripel ($, A, u) auch einen Raum mit 
Inhalt. Man beachte, dass die Menge R* in der der Inhalt gemessen 
wird durch eine beliebige kommutative Gruppe ersetzt werden kann. 


(iv) Ist A ein Mengenring, dann nennen wir eine Funktion p: A— R* 
eine Wahrscheinlichkeitsfunktion auf A, falls gilt: 


(1) p(S)=1 
(2) A Be Amit ANB=0 — p(AUB)=p(A) +p(B) 


In diesem Fall nennen wir das Tripel (S,A,p) auch einen Raum mit 
Wahrscheinlichkeit. Es macht keinen Sinn R* zu verallgemeinern. 
Wir nennen einen Punkt se S ein Elementarereignis und interpretie- 
ren diesen als mögliches Ergebnis eines Zufallsexperiments. Eine Teil- 
menge A € A heißt Ereignis und wir interpretieren p(A) als Wahr- 
scheinlichkeit, dass das Ergebnis des Zufallsexperiments in A liegt. 


Bemerkung 10.3: 


(i) Ein Mengenring ist also insbesondere ein Mengenverband. Ist umge- 
kehrt A ein Mengenverband mit $ € A, dann ist A auch ein Mengen- 
ring. D.h. es gilt die Äquivalenz: 


A Mengenring => A Mengenverband und Se A 


(ü) Ist a: A— R* ein Inhalt auf dem Mengenverband A, dann hat u 
weiterhin die folgenden Eigenschaften: 


(1) u(ß) = 0 folgt eigentlich schon aus (2), daßnd =® =NUPß so 
dass aufgrund von (2) gilt u(®) = u(dB UP) = ud) + u(P) 

(3) aBeA = u(B\A) = u(B) -u(ANB), denn B besitzt eine 
disjunkte Zerlegung inB= (ANB)U(B\A) so dass aufgrund 
von (2) gilt: u(B) = u(ANB) + yu(B\ A) 

(4) AABeA — u(AUB) = u(A) + u(B) — u(ANB), denn AUB 
besitzt die disjunkte Zerlegung AUB = (A\ B)U(ANB)U(B\A). 
Und daher gilt u(AUB) = u(A\ B)+u(ANB)+u(B\A). Mit (3) 
also: u(AUB) = u(A) - u(ANB)+u(ANB)+u(B)-u(BNA) = 
aA) + u(B) - w(ANB) 
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(ii) 


(5) AABe Amit AC B — u(A)< u(B), denn A C B bedeutet 
ANB = A und damit 0 < u(B\A) = u(B) - u[ANnB) = 
ueB) = u(A) 


Ist p: A— R* sogar eine Wahrscheinlichkeitsfunktion auf dem Men- 
genring A, so ist p trivialer Weise ein Inhalt auf A und erfüllt damit 
ebenfalls die obigen Eigenschaften. Da wir $ aber disjunkt zerlegen 
können, in $= AUCA folgt aus (2) bereits 1= p($) = p(A) + p(CA) 
und damit für alle Teilmengen Ae A auch 


p(CA) = 1-p(A) 


Man führt für Räume mit Wahrscheinlichkeit ($, A, p) genauso die Be- 
griffe der bedingten Wahrscheinlichkeit und Unabhängigkeit ein, wie 
in (7.5) für Laplace-Räume. Für diese gelten dann wortgleich wieder 
der Satz der totalen Wahrscheinlichkeit (7.6) die Pfadregel (7.8) und 
der Satz von Bayes (7.9). Einzig von allen beteiligten Mengen S; und 
A < $ müssen wir natürlich verlangen, dass sie aus A stammen. 


Der Name Mengenring kommt nicht von ungefär: tatsächlich wird A 
zu einem kommutativen Ring unter der symmetrischen Differenz A als 
Addition und dem Schnitt N als Multiplikation: 


A+B := AAB = (A\B)U(B\A) 
A-B := AnNB 


Das Nullelement ist dann 0 = ® und das Einselement 1 = $. Dieser 
Ring hat Charakteristik 2 und für alle Ae Aist A+1= CA und 
A? = A. Die Ideale Z < A sind dann genau die Teilmengen von A, für 
die gilt: (1) BEZ, (2) IT, JeEZ — IUJeET und (3) für alle A A, 
IeIgtACI= AeIZ. 


Ein Raum mit Inhalt (S, A, u) ist die ideale Grundlage dafür mit Inte- 
gration zu beginnen: Eine Funktion e: $S — R heißt einfach, falls sie 
einen endlichen Wertebereich hat und ihre Fasern Mengen aus A sind, 
d.h. falls gilt: 


(1) e(S)=Te(s)|se 5} C Rist endlich, und 

2) 0£Zxee($S) — eikr)=![seS|eks)=xr}EeA 
Die Menge der einfachen Funktionen E(S,R)={e:S —R| e einfach } 
ist dann eine R-Unter-halbalgebra von F(S,R). D.h. E(S,R) ist ein 
Unter-vektorraum von F(S,R), der sogar abgeschlossen unter (punkt- 
weiser) Multiplikation ist. Dies gilt sogar, wenn wir R durch einen 


beliebigen kommutativen Ring R ersetzen. Und das Integral einer 
einfachen Funktion e wird dann definiert, durch: 


[eu = D 2-ue'@) 


xee($) 
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Satz 


(ii 


(iv 


— 


— 


Die Integrationstheorie beginnt dann weitere Funktionen f:S > R 
so durch einfache Funktionen e„ : $ — R zu approximieren, dass die 
Folge der Integrale der e„ wieder (unabhängig von der Wahl der e,) in 
R konvergiert. Der Grenzwert dieser Integrale wird dann als Integral 
von f bezeichnet: 


[rau = lim Ferdu wobei (&n) — f 


10.4: 


Sei $ eine beliebige Menge und U C P(S) irgend eine Sammlung von 
Teilmengen von S. Dann bezeichnen wir: 


m nÄi) 
4] «3= U U: |< mn) € N, G,EU 
i=li-1l 


Dann ist U < Ul < P($S) und dazu ist [U] sowohl U-stabil als auch 
N-stabil. D.h. für alle V, W & [U] gilt VUW e U] und VnWelu). 


Sei $ # ® eine nicht-leere Menge und zu jedem ie IT #9 sei ein 
Mengenverband A; < P(S) über $ gegeben. Dann ist der Schnitt 
über alle A; wieder ein Mengenverband über $: 


N4 C P(S) ist ein Mengenverband 
iel 


Ist U < P(S5) eine beliebige Familie von Teilmengen von S, dann 
können wir insbesondere den von erzeugten Mengenverband (als den 
kleinsten Mengenverband auf S, der U enthält) definieren: 


U)uv := {AS P(8) | A ist ein Mengenverband, mit U < A} 


Ist analog zu (ii) zu jedem {€ I #® ein Mengenring A, C P(S) über 
S$ gegeben, dann ist der Schnitt über alle A; wieder ein Mengenring: 


NA; C P(S) ist ein Mengenring 
iel 


Und zuuU < P(S) definieren wir wieder den von U erzeugten Mengen- 
ring (als den kleinsten Mengenring auf S, der U enthält): 


(Uyur := {AS P(5) | A ist ein Mengenring, mit U C A} 


Sei wieder U < P(S), dann bezeichnen wir @ := [U] U {ß} und 
L:={Q\P|P,Qe Q)}. Dann können wir den von erzeugten Men- 
genverband explizit angeben, als: 


U)uv = | U L; 
ee 





I<neN, ner! 
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— 


—_ 


— 


Und bezeichnen wir M := {ß, S}U{U |U eU}U{CU|U EU }dann 
können wir auch den von U erzeugten Mengenring explizit angeben: 


Ist (S, A, u) ein Raum mit Inhalt und sind Aı bis A„ € A messbare 
Mengen, dann gilt für die Vereinigung dieser Mengen: 


U) Bez) 


k=1 IC1..n, #I=k \iel 


(Ne) = Zen 5, -[UM) 
i=1 k=1 IC1.n,#I=k \iel 
Dabei ist die Summe über #/ = k als Summe über alle Teilmengen 
I von 1...n mit k Elementen zu verstehen. D.h. die Summe läuft 
tatsächlich über die endliche Menge {I C 1...n|#I=k}. 


Sei nun (S$,A,p) ein Raum mit Wahrscheinlichkeit und BE A eine 
Teilmenge mit p(B) # 0, dann erhalten wir einen weiteren Raum mit 
Wahrscheinlichkeit (B, Ag,pg) - der die Restriktion von (S,A,p) auf 
B genannt wird - durch 


Ap := {AnB|AeceA} 


DB .: erde) 
p(B) 


Sei ($,.A, u) ein Raum mit Inhalt, T eine beliebige Menge und schließ- 
lich f:S — T irgend eine Funktion. Dann definieren wir den Push- 
forward von (5, A, u) unter f, durch (T, fzA, fu), wobei 


RAS=SHBET|IF Blei) 
Au: FFA>RtT:Br u(lf\(B)) 


Und damit ist (T, fxA, fu) dann wieder ein Raum mit Inhalt. Ist 
(5, A,p) sogar ein Raum mit Wahrscheinlichkeit, dann ist dessen Push- 
forward (T, fx A, fsp) wiederum ein Raum mit Wahrscheinlichkeit. 


Ist nun (T,B,v) ein Raum mit Inhalt, $ eine beliebige Menge und 
f:5 — T ist eine surjektive Funktion, dann definieren wir den Pull- 
back von (T,B,v) unter f, durch (S, f*B, f*v), wobei 


fB := {f(B)|BeB} 
fv : FB->R’:Arv(f(A)) 


Dies ist wohldefiniert, da aus der Surjektivität von f folgt, dass für 
A= f"!(B) gilt: f(A)= Bee B. Und damit ist (S, f*B, f*v) wieder 
ein Raum mit Inhalt. Und ist (T, B,q) sogar ein Raum mit Wahrschein- 
lichkeit, dann ist dessen Pull-back (S, f*B, f*q) wiederum ein Raum 
mit Wahrscheinlichkeit. 
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(ix) Produktsatz: Sind ($, A, u) und (T, B,v) zwei Räume mit Inhalt, dann 


bezeichnen wir die Menge AxB:={AxBCSxT|AEA,BeB}. 
Dann ist A x B N-stabil und der von A x B erzeugte Mengenverband 
ist gegeben, durch 


ASB := (AxB)uv = 104 x B; 
i—=1 





I<nem ca men! 


Auf diesem Mengenverband gibt es einen eindeutigen Inhalt u. ® v mit 
der Eigenschaft (u®&v)(Ax B) = u(A):-v(B) für alle Ae AundBeB. 
Wir nennen den Raum mit Inhalt (SxT, A®B, u®v) den Produktraum 
von ($,A,u) und (T,B,v). Sind beide ($,A,p) und (T,B,q) sogar 
Räume mit Wahrscheinlichkeit, dann ist der Produktraum wiederum 
ein Raum mit Wahrscheinlichkeit. 


Beispiel 10.5: 


() 


Der kleinste Mengenring überhaupt ist offenbar {®,$}. Auf diesem 
gibt es nur die Wahrscheinlichkeitsfunktion p(ß) = 0 und p(S) = 1. 
Der größte Mengenring ist die Potenzmenge P(S) selbst. 


Ist A C S eine beliebige Teilmenge, dann ist der von { A} erzeugte 
Mengenring gegeben, durch {ß, A,CA, $}. Der erzeugte Mengenver- 
band hingegen ist nur {ß, A}. 


Die bisherige Theorie der Laplace-Räume ist nur ein Spezialfall der 
Räume mit Wahrscheinlichkeit: Ist ($,p) ein Laplace-Raum, dann ist 
(5, P(5),p) ein Raum mit Wahrscheinlichkeit, wobei für eine beliebige 
Teilmenge A C $ p(A) definiert wird, durch 


PA) = Ypts) 


seA 


Ist © eine Topologie auf der Menge $ (also die Menge aller offenen 
Mengen von S), dann ist O insbesondere N- und U-stabil (es sind sogar 
beliebige Vereinigungen erlaubt) und es sind ÖO und Se ©. D.h. es ist 
O = [O]. Zumeist ist O aber kein Mengenring, da die Komplemente 
offener Mengen ja abgeschlossen sind. Der von O erzeugte Mengenring 
B := (O)ur = (O)mv wird als Borel-Ring auf $ bezeichnet. Nach 
Satz (iv) ist B explizit gegeben, durch 


s- [Ün 
i=! 


Dabei wird £ = {V\U|U,VeO©} als Menge der lokal abgeschlos- 
senen Mengen bezeichnet. Eine Menge B € B wird in der Topologie 
konstruierbar genannt. 





I<nen ner) 
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(v) Das bekannteste Beispiel eines Inhalts ist sicherlich der von Lebesgue, 


— 


der ausführlich in [Bauer, Maß- und Integrationstheorie, 84] vorgestellt 
wird. Wir geben hier nur eine Skizze der Konstruktion wieder: Zu- 
nächst bezeichnen wir für beliebige a, b € R@ den d-dimensionalen 
Quader [a, b[:= (2 eRt|Viel..d:;<xz;<b; }: Die Menge all 
dieser Quader bezeichnen wir mit 





Te = ! Ta, b[ a,beR!, Viel...d:u<b} 


Offensichtlich ist Z? N-stabil und sind I, J € Z@, dann ist J\ TI eine 
endliche Vereinigung von Mengen aus Z@. Damit erhalten wir einen 
Mengenverband durch 


Fo= 10a 
k=1 





1<neN, nen! 


Auf diesem Mengenverband gibt es genau einen Inhalt A: FF > Rt, 
für den die Quader folgendes Volumen erhalten: 


d 


A (la,5) = |] -%) 


i=1 


Aus dieser Eigenschaft erkennt man aber (durch Induktion über d), 
dass A@ nichts anderes ist, als das d-fache Produkt von AT, formal: 


X = 18..8A1 (dal) 


Der Fortsetzungssatz [Bauer, Maß- und Integrationstheorie, 85] erlaubt 
es dann diesen Inhalt A@ auf eindeutige Weise zu einem Maß auf die 
von F erzeugte o-Algebra fort zu setzten. Diese o-Algebra ist aber 
nichts anderes, als die Borel-o-Algebra von R“ 


(Fi) = BR) = (OR): 


Für die Spezialisten: auf jeder lokal-kompakten (insbesondere haus- 
dorff’schen) Gruppe G gibt es ein (bis auf einen Normierungsfaktor) 
eindeutig bestimmtes, Maß 7, für dass für alle ge G und A e B(G) 
gilt: r(gA) = T(A). Man nennt r das Haar’sche Maß von G. In diesem 
Sinne ist \= r genau das Haar’sche Maß der kommutativen Gruppe 
R@ (Gruppe unter der Addition). 
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Beweis: 


() 


(i 


— 


Offensichtlich ist U < |Ul, da wir für beliebiges U € U die Wahlm =1, 
n(1) = 1 und U] = U treffen können. Die N-Stabilität ist direkt zu 
sehen: sei U = |J,U; wobei U; = N; U;; mit U,; € U und analog 
V= Ur V, wobei V, = N Ve mit Ve € U. Dann ist 


UUV = Up U UV =) u OR 
a Ss) SAl’im füra>m 


offensichtlich wieder in [4] enthalten. Auf dieselbe Art sieht man aber 
auch, dass U,NV; ein Schnitt über Mengen aus U ist: 


n(i) a(k) n{)-+a(k) E für a<n(i) 
U;NV, = N U;; N N V.e | = ii { a. für @ > n(i) 


Insbesondere ist U;N V,. also wieder in [U] enthalten. Wir haben aber 
schon gezeigt, dass [U] U-stabil ist und daraus erhält man dann auch 
die N-Stabilität UNV e [U], aufgrund von: 


m p m pP 
UNV = (Üs)n( “) - JUunv 
i=Ll k=1 i=1k=1 


Da alle A; Mengenverbände sind, ist stets ® € A;. Und da ® in allen A; 
enthalten ist, gilt auch ® € N); A;. Und sind A, B e f),; A; dann sind 
also A, Be A; für alle i € I. Damit gilt dann aber auch stets B\ A 
und AUBe A;. Und da dies wieder für alle z € I gilt erhält man 
wiederum B\ A und AUB e f}, Ai. Insgesamt ist f); A: also wieder 
ein Mengenverband. 


Man beachte, dass P(S) trivialer Weise selbst ein Mengenverband (so- 
gar Mengenring) über S ist. Ist also U C P(S) beliebig, dann ist die 
Menge aller Mengenverbände A mit U < A also nicht leer. Und damit 
ist (U )uv wohldefiniert und wie oben gezeigt ein Mengenverband. 


Sind alle A; sogar Mengenringe, dann gilt stets $ € A;. Da dies für 
alle i € I gilt, folgt also Se f),A;. Nach (ii) ist f), A; also ein Men- 
genverband mit Se f), A; und damit ein Mengenring. 


Ist U < P(S) beliebig, dann ist [U] nach (i) U- und N-stabil. Und 
damit ist auch offensichtlich @ = [U] U{®} U- und N-stabil. Weiterhin 
gilt U < Q. Offenbar ist aber auch @ C £, da wir jedes Q E © 
schreiben können, als Q=@Q\Pe L. Wir bezeichnen nun den von U 
erzeugten Mengenverband mit A := (U )uv: Da A abgeschlossen unter 
U und N ist, haben wir @ C A. Und da A uch abgeschlossen unter der 
Differenz von Mengen ist ist auch £ C A. Und damit bekommen wir 
dann wieder [£[] < A, insgesamt also 





U ee ee ee 
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— 


Zu bemerken ist, dass £ N-stabil ist, denn für L=@\P und DU = 
Q’\P' EL gilt offenbar LAL’ = (Q\ P)N(Q’\P') = (QNQ')\(PUP). 
Und da © jaN- und U-stabil ist bedeutet das auch ÄLNL’e £. Damit 
reduziert sich [£] aber auf die Menge 


i=1 


Betrachten wir wieder L=Q\P und !=@\P’eL£ dann gilt aber 
auch L\D’=(Q\(PUQ))U((QNP)\P)e W. Und damit ist W 
also auch abgeschlossen unter der Differenz von Mengen 





I<neN, Wer! 


(Un) (Us) - Unaz « w 


i=1 jel i=1j=1 


Insgesamt ist W also U-stabil, abgeschlossen unter \ und enthält ®. 
Damit ist W ein Mengenverband, mit U < W, so dass A C W = 
[£]. Die umgekehrte Inklusion haben wir aber bereits gezeigt, so dass 
insgesamt A = W ist. 


Sei nun A := (U )ur der von U erzeugte Mengenring. Nach Konstruk- 
tion ist M abgeschlossen unter Komplementen, d.h. für alle Me M 
gilt auch CM € M liegt. Außerdem ist klar, dass U CM CA. 
Nach (i) ist |M] abgeschlossen unter Vereinigung und Schnitt und es 
gilt Se M C |M]. Damit sieht man dann aber leicht, dass |M] 
abgeschlossen unter Komplementen ist: mit M;,; € M ist stets auch 
CM;; € M, so dass 


m ni) m nG) 
cıUN)| = MUCM; 
i=1j-1l i=1j-1 
n(l n(m) 


und da |M] abgeschlossen unter N und U ist, liegt diese Menge also 
wieder in [M]. Damit ist [M] ein Mengenring mit U < |M|] und damit 
gilt A < [M]. Da aber auch M C A gilt und A abgeschlossen unter N 
und U ist, erhalten wir damit auch |M] < A, zusammen also A = |M], 
was zu beweisen war. 


Zunächst ist klar, dass wegen B € A auch Ag ein Mengenring ist: 
B=BnBe Ag und für A, A’ e A ist auch (ANB)U(A'nB) = 
(AUA)NBeE Ap. Schließlich ist das Komplement ja in B zu nehmen 
und deswegen gilt für A e A wieder C(ANB) = B\(AnB) = 
B\A=(B\A)NBe Ap. Es bleibt also zu zeigen, dass pg wieder eine 
Wahrscheinlichkeitsfunktion ist: zunächst ist BNB = B also pg(BN 
B) = p(B)/p(B) = 1. Und sind Ar =AMB und A, =A'NBe Ar 
mit Agn A, = ® dann gilt pa(Ag U AL) = p(Ag U A,)/p(B) = 
(p(Ag) + p(A,))/p(B) = p(As)/p(B) + p(Ag)/p(B) = pB(As) + 
pg(A',). Insgesamt ist (B, Ag, ps) ein Raum mit Wahrscheinlichkeit. 
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(vii) 


(viii) 


Zunächst müssen wir wieder zeigen, dass B := f,A wieder ein Mengen- 
verband ist. Offenbar ist f*!(9) =® € A und damit auch Ö € B. Und 
sind B, B’ € B dann gilt wiederum f!(BUB’) = fI(B)Uf"!(BN) € 
Aso dass auch BU B’ e B ist. Schließlich gilt auch B’\ B= B’NCB 
so dass auch f (BA BJ=eF HRincB)e FHBYNNACH!B)= 
=UBN\fTI(B) € A ist, woraus B’\ Be B folgt. Und genauso sieht 
man, dass v := fu ein Inhalt auf B ist: si BNB’=®, dann ist 


v(BUB') = uf (BUB')) = uf (B) U F(BN) 
= uTB)) +ulF CB) -uFBIN FB) 
= ulFTB)) +ulF CB) - uf (BB) 
= ulB)) + ulF"B/)) - ud) 
= uFTB)) + uf (B/)) = v(B) +V(B') 


Eigenschaft (1) von Inhalten folgt ohnehin aus Eigenschaft (2). Ins- 
gesamt ist (T,B,v) also ein Raum mit Inhalt. Und ist ($, A, u) so- 
gar ein Raum mit Wahrscheinlichkeit, dann gilt $ € A so dass auch 
FT) =S € A ist, was wiederum T € B bedeutet. Und aufgrund 
von v(T) = u(f(T)) = u(S) = 1 ist v dann auch eine Wahrschein- 
lichkeitsfunktion. 


Zunächst müssen wir wieder zeigen, dass A := f*B wieder ein Men- 
genverband ist. Wiederum ist P = f!(ß) € A, daja® e B ist. Und 
betrachten wir A = f*!(B) und A’ = f*1(B’) € A, dann findet man 
wie schon in (vi) wieder AUA’ = f"!(BUB’) und A'\A = f*!(B’\B), 
so dass AU A’ und A’\ A e A wieder in A enthalten sind. Man be- 
achte, dass hierfür die Surjektivität von f nicht benötigt wurde. Nun 
ist also zu zeigen, dass u := f*v ein Inhalt auf A ist: seien wieder 
A = fr}(B) und A’ = fI(B') e A mit ANA’ = 9. Dann ist 
auch ® = f($) = f[ ANA) = f{F}(BNBN) = BNP (letzte- 
res, da f surjektiv ist) und damit auch u(AU A’) = v(f(AU A)) = 
v(BU B') =v(B) +v(B’) = u(A) + u(A’). Eigenschaft (1) von Inhal- 
ten folgt ohnehin aus Eigenschaft (2). Insgesamt ist (S, A, u) also ein 
Raum mit Inhalt. Und ist (T, B,v) sogar ein Raum mit Wahrschein- 
lichkeit, dann gilt S = f!(T) € A und aus der Surjektivität folgt 
auch u($S) = v(f(S)) = v(T) = 1, so dass u dann auch eine Wahr- 
scheinlichkeitsfunktion ist. 


Der Beweis dieser Aussage ist sehr umfangreich, so dass wir hier nur 
eine Skizze geben wollen: zunächst einmal ist klar, dass für A, A’ e A 
und B, B’ eBgilt: (Ax B)N(A'x B')=(ANA')x (BNB’). Da A 
und B aber N-stabil sind, ist damit also (Ax B)N(A'xB’)eAxB. 
D.h. diese Menge ist ebenfalls N-stabil. Nun bezeichnen wir 


i=1 


Man macht sich recht leicht klar (Skizze), dass (Ax B)U(A’x B’) und 
(A’x B’)\(Ax B) endliche Vereinigungen von Mengen aus AxB sind, 
d.h. in ? liegen. Daraus folgt dann weiter, dass P abgeschlossen unter 
N, U und \ ist, also ein Mengenverband ist. Mithin gilt (AxB)uv =P. 





I<neN, € A, nen! 
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Sind A und B Mengenringe, dann gilt natürlich auch $x Te P und 
damit ist P dann wieder ein Mengenring. 


It P= J;4x B; € P, dann hat P eine Zerlegung als endliche, 
disjunkte Vereinigung von Mengen aus A x B. Man kann diese recht 
leicht gewinnen, indem man definiert: 


a:P>P(...n):(,Y>rfiel...n|seA} 


BP PRlenees de elenltez,} 


Man beachte, dass a(s,t) und w(s,t) nie die leere Menge sein können, 
da (s,t) € P ja in mindestens einem der A; x B; enthalten sein muss. 
Deren Fasern sind nun von der Gestalt (fürO #1, J <1...n) 


Ar := a.N = (n«)\ UA] e A 


iel ie 


Bew.) = ENT) Eee 
jeJ IEI 
Als Fasern sind die A; bzw. B, paarweise disjunkt und wir haben 
damit schließlich eine disjunkte Zerlegung von P gefunden, als 


UUArxB; 


ID JZ0 


Damit kann man den Inhalt r : P — R* definieren, indem man zu 
P € P eine Zerlegung von P = U); U,A: x B; wählt in der sowohl 
die A; € A, als auch die B, € B paarweise disjunkt sind. Für diese 
definiert man dann durch: 


n 


UU4x8; = > ,uA) 
i=1 3-1 


i=1j=1 


Dabei ist m wohldefiniert: die Summe hängt nicht von der gewählten 
Zerlegung ab, denn: seien P = U, U;,4: x B; = U,U,Cr x D, zwei 
solche Zerlegungen von P. Dann ist für allege1l...mundjel...n 
offenbar 


r=1s=1 


AxB; = (AxB))NP = (AxB,) "(Ulexn.) 


U 


U 


T= 


> 


(A;NC,)x (BjND,) 


jan 


s=1 
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Durch Projektion auf die jeweiligen Koordinaten findet man daraus 
disjunkte Zerlegungen A; = U. AiNC, bzw. B; = U, B;NDs. Und da 
u und v Inhalte sind bedeutet das 


(A lee 25 (B;ND;) 
s=l 


r=1 


Insgesamt also u(A;) -v(B;) = D,uAN Cr))DL,v(B; N Dr)) = 
>. s#(ANCr)v(B; N Dr). Und damit liefert die erste Zerlegung 
von P den folgenden Inhalt unter z 


Ul4x8; BEDDELTT (B;ND,) 


i=1j-1 i=1l j=enr=1 s=1 


Vertauscht man die Rollen der A; x B, und ©. x D, so findet man in 
völliger Analogie zur gerade gegebenen Argumentation 


-(UÜex2.) - IS ulAancyuB;nD,) 


r=1s=v r=1 s=1 i=1 j=n 


Da die Summenzeichen aber vertauschen, stimmen die beiden Aus- 
drücke überein und wir haben die Unabhängigkeit von der speziellen 
Zerlegung bewiesen. 


Es bleibt nur noch die Eindeutigkeit von r = u®v zu zeigen. Dies liegt 
daran, dass m auf der N-stabilen Menge AxB festgelegt wurde. Der Be- 
weis der Aussage verwendet aber Eigenschaften von Dynkin-Systemen 
und ist überraschend trickreich. Wir verweisen wieder auf [Zeidler, Al- 
gebraic Statistics, auf www.wuala.com/zeidlerweb] für einen Beweis. 


Wir beweisen die Formel durch Induktion über die Anzahl n der Teil- 
mengen. Der Falln = 1 ist trivial und n = 2 wurde in einer Bemerkung 
bereits bewiesen, wir betrachten nun also n > 2 und Aı, Aa,..., Anıı € 
A, wobei wir die Bezeichnung B := Ag U---U A„+ı einführen. Wie ge- 
sehen, gilt ja: u(Aı UA. --U Ay+ı) = u(Aı U B) = u(Aı) + u(B) _ 
u(AıMB). Wir wenden nun die Induktionsvoraussetzung auf u(B) und 
u(Aı N B) an, womit sich jeweils ergibt: 


ee > «(N4) 


k=1 IC2..(n+1), #I=k \iel 
n 
- Sen 5 +04) 
k=1 IC1...(n+1), iel 
1EI, #I=k 


- Sen 2 +[N4) 


k=1 TC1...(n+1), iel 
181, #I=k 
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n+1 
n(AnB)= a| Ana) 
i=2 


en De. gi (n Aın A) 


k=1 TC2...(n+1), #I=k iel 


- eye 5 (Na) 


k=1 TC1...(n+1), iel 
1EI, #I=k+1 


Let 5 u[N%) 


| 
8 


k=2 T<1...(n+1), iel 
1EI, #I=k 
n-+1 
= WA) - ID N «(NA) 
k=1 T<1...(n+1), viel 
1EI, #I=k 


Insgesamt finden wir also 
m (Ü A) = u(Aı) + u(B) - u(AıNnB) 
i=1 


n+1 
ana D »[NA) 








k1 I<1...(n+1), viel 
IEI, #I=k 
n+1 
HAUT D m (n A) 
k=1 T<1...(n+1), viel 
1EI, #I=k 
n 
- See 2 .[NA) 
k=1 I<1...n, #I=k viel 


Die zweite Formel könnte genauso gut direkt durch Induktion über 
n bewiesen werden, aber es ist einfacher die erste Formel dafür zu 
verwenden: Da alle Teilmengen A; in der Vereinigung B := AıU- - -UA, 
enthalten sind, können wir die A, € A als Teilmengen von A, < Be 
A auffassen (das bedeutet CA, = B\ A,.), dann können wir weiterhin 
berechnen: 


a en 


Wenden wir die schon bewiesene erste Formel auf diesen Ausdruck an, 
dann erhalten wir daraus dann auch die zweite Formel: 


au 


n 


=uB)-),-V % «(nca) 
1 I<1...n, #I=k 


k= viel 
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um D [eUR) 
IC1..n, #I=k 


iel 
u(B) — u (U A) 
iel 
BIN Don (U A) 
Ki k=1 IC1.n,#I=k \iel 


ua ()Dar ten » (UA) 
k=0 et TC1.n,#I=k \iel 


=uB\ DH HI N m (U A) 
k=1 


IC1..n, #I=k \iel 


hm 2 (Ua) 


k=1 IC1..n, #I=k \iel 


























Die folgende Eigenschaft sieht zwar etwas bizarr aus, wird aber interessante 
Konsequenzen für die Unabhängigkeit von Ereignissen haben. Wir formulie- 
ren die Aussage in ihrer allgemeinen Form: 


Proposition 10.6: 

Sei (9, A, u) ein Raum mit Inhalt [eigentlich genügt es sogar, wenn u: A> R 
ein Inhalt mit Werten in einem beliebigen Integritätsbereich R ist]. Und seien 
A, Aı,..., A) € A messbare Mengen, so dass A= AıU---U A, ist. Nehmen 
wir schließlich noch an, dass für alle®B I <1...n gilt: 





nn - 1 


k(A) er: (A) 


Dann gibt es bereits einke1...n, so dass A, denselben Inhalt hat, wie A 





Ikel...n : u(Ar) = (A) 


Beweis: 
Wir bezeichnen a; := u(A,) € R und x := u(A) € R. Nach Voraussetzung 
und mit Hilfe von Satz (10.4.(v)) gilt aber 


Us] =), 0-0" (n A) 
jel r=1 #I=r iel 
Wir dividieren diese Gleichung durch x = u(A) und ziehen es in die Summe 


je ıK (Nier A:) 
-Y I (A) 


r=1 #I=r 
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Dann können wir die zweite Voraussetzung einsetzen. Um die entstehenden 








Ausdrücke leichter schreiben zu können sagen wir I = {iı,...,i,}, dann 
Tin 
r=1 #I=r i u(A) 
> > ie yr-1 Ic Gi 
r=1 #I=r 
_ = > para 
r=1 #I=r u 


Wir multiplizieren diese Gleichung nun wieder mit x” durch und bringen die 
lange Summe auf die linke Seite, dann erhalten wir weiter 


z > > (1) "Ta;, rer a," 


r=1 #I=r 


Er > > Feten 


r=1 #I=r 


Dann erkennt man, dass es bei dem r-ten Summanden einfach um das r-te 
elementarsymmetrische Polynom in aı bis a, handelt und damit lässt sich 
dieser Ausdruck mit dem Satz von Vieta umschreiben, zu 


(z-a)l@e -a):. (Ce -m) = =0 


Da R als Integritätsbereich vorausgesetzt war, muss also einer der Faktoren 
x — a, verschwinden. D.h. es gibt einkel...n, so dass ar = x ist. 
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Kapitel 11 
Sigma-Algebren 


In diesem Abschnitt präsentieren wir eine kurze Einführung in die klassische 
Maßtheorie, wie sie in zahlreichen Lehrwerken zu finden ist: Während Men- 
genringe nur endliche Mengenoperationen zulassen, erlauben wir jetzt auch 
abzählbare Vereinigungen (und damit auch Schnitte). Der Grund dafür liegt 
auf der Hand: wir wollen komplizierte Mengen unbekannten Volumens durch 
einfache Mengen bekannten Volumens ausschöpfen können. Und einen Kreis 
kann man eben nicht mit endlich vielen Quadern ausschöpfen. 

Der Preis dafür ist aber, dass wir damit auch Mengen mit unendlichem 
Volumen zulassen müssen. Deswegen nehmen wir oo als möglichen Wert, den 
das Maß annehmen kann auf. Näheres dazu siehe (2.3). Des weiteren benöti- 
gen wir einen Konvergenzbegriff auf der Wertemenge des Maßes. Während es 
leicht möglich ist, Inhalte auf Mengenverbänden mit Werten in einem belie- 
bigen kommutativen Ring zu betrachten, muss der Wertebereich eines Maßes 
auf einer o-Algebra zumindest ein kommutativer Ring mit Metrik sein. 


Definition 11.1: 

Wie bei Mengenringen sei $ # ® wieder eine beliebige, nicht-leere Menge und 
% C P(S) sei irgend eine Familie von Teilmengen von $. Dann definieren 
wir die folgenden Begriffe: 


(i) Wir nennen D eine o-Algebra, wenn S in % enthalten ist und D ab- 
geschlossen unter Komplementen und abzähbaren Vereinigungen ist: 
(1) Se 
2) Aed — CAcEN 
3) A:N-% — U.en An) € & 
Wegen ® = CS € ist D damit insbesondere U-stabil, d.h. auch ab- 
geschlossen unter endlichen Vereinigungen und damit ein Mengenring 
und damit auch Mengenverband. Durch Übergang zu Komplementen 
N, A(n) = CU, CA(n) finden wir auch die zu (3) duale Eigenschaft: 
4) A:N-% — finen An) € % 


(ii) Ist D eine o-Algebra, dann nennen wir eine Abbildung der Form wu: 
%— [0,0] ein Maß auf 2, falls u(d) = 0 und für A: N 2 gilt: 


Vm#neN:A(m)nAn)=9 — u [U At) = )  u(A(n)) 


neN neN 
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— 


(ii 


Man beachte, dass dabei die Summe unendlich werden kann, selbst 
wenn alle u(A(n)) < oo endlich sind. Ist u ein Maß auf der o-Algebra 
%, dann nennen wir (S,%, u) auch einen Maßraum. Bezeichnet nun 
N) die Menge aller Mengen aus % mit endlichem Volumen u(A) < ©, 
dann ist O(D) ein Mengenverband und u : Nu) — R* ist ein Inhalt 
auf diesem Mengenverband: 


Ur) = tAER| HA) <o} 


Ist (5,2, a) ein Maßraum, dann nennen wir u endlich, falls u eine 
(und damit alle) der folgenden äquivalenten Eigenschaften erfüllt: 


(a) u(S) < © 


(b) Au) = % 
(cl) VAEN : u(A) <wo 


Speziell im Fall u(5) = 1 sprechen wir auch von einem Wahrschein- 
lichkeitsmaß auf $S. Schließlich nennen wir u. noch o-endlich, falls es 
eine Folge messbarer Mengen A: N 2 gibt, mit 


VneN: yu(Aln))<oo und $S = U A(n) 
nelN 


Ist ($,%, u) ein Maßraum, dann nennen wir eine beliebige Teilmenge 
N < Seine u-Nullmenge falls es eine Menge A e DW gibt, mit NC A 
und (A) = 0. Und der Maßaum (S,%, u) heißt vollständig, wenn 
jede w-Nullmenge N C 5 bereits zu N € gehört, d.h. wenn für alle 
Teilmengen N < $ gilt: 





JAe3:NCAunduAAJ=0 — Ne) 


Beweis: 


Wir zeigen zunächst, dass die o-Algebra % C P(S) tatsächlich ein 
Mengenring ist. Zunächst ist O= CS € aufgrund von Eigenschaften 
(1) und (2) von o-Algebren. Und sind A, Be S, dann definieren wir 
die Abbildung H(0) := A, H(1) := B und für n> 2 noch H(n) :=®. 
Dann ist H: N & wohldefiniert und offensichtlich gilt 


AUB = AuBußußu...= |) H(n) e x 
neN 


Weiter ist zu zeigen, dass beginnend mit einem Maß u : 2 — [0,0] 
die Sammlung von Teilmengen (u) ein Mengenverband ist. Zunächst 
ist Ö € Nu), da wir von Maßen ja u(ß) = 0 < x gefordert haben. 
Seien nun A, Be Nu), d.h. es ist u(A) < oo und u(B) < x. In 
einem ersten Schritt betrachten wir H(0) := B\A, H(1) := ANB und 
fürn > 2 auch H(n) := ®. Da % auch ein Mengenring ist, ist damit 
H : IN — 3% wohldefiniert. Und wir haben eine disjunkte Zerlegung von 
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B gefunden: 


B = (B\A)U(AnB)ußußU... = |) H(n) 


Da u ein Maß ist, können wir das Volumen von B also über die Summe 
der Volumen der H(n) auswerten, und finden dabei: 


WB\A)+uANB) = Y)u(Hin)) 
neN 


«(U 2) = u(B) < © 


neN 


Das bedeutet, dass die Volumina von B\ A und AN B beide endlich 
sein müssen und damit auch B\A und ANBeE AB) sind. 

Nun betrachten wir H(0) := A\ B, H(l) := ANnB, Hß) := B\A 
und für n > 3 wieder H(n) := ®. Wie oben ist H: N — % damit 
wohldefiniert. Und offenbar ist AU B damit disjunkt zerlegt worden: 


AUB = (A\B)U(ANB)U(B\A)U8UBU...= |) H(n) 
neN 


Wie gerade gesehen haben aber alle Bruchstücke A\ B, AN B und 
B\ A endliches Volumen unter u und damit gilt auch 


«(U 1) = Dun) 


nelN neN 
uA\B)+H(ANB)+u(B\A) < © 


„(AU B) 


Es ist also auch u(AU B) < © und damit AU Be MD). Insgesamt 
haben wir bewiesen, dass O(D) ein Mengenverband ist. 


Bleibt zu zeigen, dass u ein Inhalt auf N(D) ist. Aber das ist trivial: sind 
A, Be Qu) mit ANB=ß, dann gilt für 7:N — 2% definiert, durch 
H(0) := A, H(1) := B und für n > 2 wieder H(n) :=® offensichtlich: 


nAUB) = u (U u) = )  u(Hin)) = u(A) + u(B) 


nelIN neN 


Es ist klar, dass die Eigenschaften (b) und (c) endlicher Maße dieselbe 
Tatsache ausdrücken - nur anders geschrieben. Und (c) — (a) ist 
trivial. Es ist also noch (a) — (c) zu zeigen: sei also A € D beliebig, 
dann ist CA e D und $ = AUCA eine disjunkte Zerlegung von S. Da u 
auch endlich additiv ist (wieder H (0) := A, H(1) := CA und H(n) :=® 
für n > 2) erhalten wir: u(A) + u(CA) = u(AUCA) = u($) < 00. Und 
da die Summe endlich ist, kann keiner der Summanden unendlich sein 
und damit ist auch u(A) < x. 
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Beispiel 11.2: 


(i) Offensichtlich ist P($5) ={A| A C $} auch eine o-Algebra. Und es 


(ii 


— 


— 


—_ 


gibt auch immer ein Maß auf P(S), wenn es auch eher albern ist: 
u(®) := 0 und u(A) := © für alle® # A C S. Ein schönes Beispiel, 
das nur zum Gegenbeispiel taugt. 


Ein etwas interessanteres Maß ist das Dirac-Maß: Seien $ # ® und 
s € S beliebig fixiert. Dann erhält man ein Wahrscheinlichkeitsmaß 
ös : P(S) — {0,1} durch 6,(A) := 1 falls se A und 6,(A) := 0 
falls s & A. Es ist dieses Maß, das ein Physiker meint, wenn er von 
der Delta-Funktion spricht: As : F(S,R) > R: f + f(s) ist eine 
lineare Abbildung, die man als Integral schreiben möchte. Mit Hilfe 
der Maßtheorie geht dies folgendermaßen (siehe auch Kapitel 17) 


AN) = / f(x) dö,(e) 


Ist » < P(S) eine o-Algebra auf der Menge 5 # ®, dann bilden 
die Maße auf D zwar keinen R-Vektorraum, da wir ja nicht mit ne- 
gativen Zahlen multiplizieren dürfen, aber einen positiven Kegel im 
Vektorraum der o-additiven Funktionen o:%” — R.D.h. sind u und 
v:%— [0,00] Maße und ist a > 0, dann erhält man ebenfalls Ma- 
ße, durch (au)(A) := a: u(A) und (u +v)(A) := u(A) + v(A). Ein 
Speziallfall davon sind positive Linearkombinationen des Dirac-Masßes: 
sind s(1),...,s(n) € S und a(l),...,a(n) > 0, dann erhalten wir ein 
endliches Maß auf $ durch 

aid : PIS)>R*+ : Ar) ali) -ö,4(A) 
- i=1 


i=1 

Ein weiteres einfaches Beispiel ist das Zählmaß auf einer endlichen 

Menge S. In dieser Fassung ist es sogar ein Wahrscheinlichkeitsmaß: 
HA 


z:P(S)>]P,1] : Ar HS 


Die Beispiele (iii) und (iv) lassen sich wie folgt verallgemeinern: Ist 
(5, p) ein Laplace-Raum, dann können wir diesen zu einem Wahrschein- 
lichkeitsraum (5, P(S),p) machen: Dabei wird p als Wahrscheinlich- 
keitsmaß wie zuvor schon definiert, als: 


p: P(S)> [0,1] : Am ) pls) 
seA 


Das wichtigste Beispiel haben wir bereits im vorangegangenen Kapitel 
in Beispiel (10.5.(v)) besprochen: das Lebesgue-Maß A@. Zunächst erin- 
nern wir an die Bezeichnungen Z@ = { [a,b[| a <be R“} der halbof- 
fenen Quader und O4 = { UCR|U offen } der offenen Teilmengen 
von R@. 
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(vi) 


(viii) 


Nach [Bauer, Maß und Integrationstheorie, 6.4] erzeugen beide Men- 
gensysteme dieselbe o-Algebra 


BR) := (Of)z = (ZÜ)y 


Diese o-Algebra wird als Borel-o-Algebra von R@ bezeichnet. Das Lebesgue- 
Maß ist nun das eindeutig bestimmte Maß auf B(R), mit 


d 


A (la,5) = |] -) 


i=1 


Dieses Maß lässt sich nach [Bauer, Maß und Integrationstheorie, 8.1] 
auch wie folgt charakterisieren: Ist 1 : B(R®) ein Maß auf der Borel- 
o-Algebra von R®, so dass (1) für alle A &e B(R“) und alle x € R4 
gilt u(x + A) = y1u(A) und (2) für den Einheitswürfel 7 := [0,1] < R 
gilt m := u(T) < ©, dann ist bereits u = mA@. Und nach [Bauer, 
Maß und Integrationstheorie, 8.1] hat das Lebesgue-Maß dann folgende 
Transformationseigenschaft: Ist T : RE — R@ linear und A € B(R“) 
eine Borel-Menge, dann gilt für die Bildmenge T'(A): 


AUT(A)) = |detT]- A%(A) 


Das Lebesgue-Maß kann (wie jedes andere Maß auch) dazu verwendet 
werden, weitere Maße zu konstruieren [Bauer, Maß und Integrations- 
theorie, 17.1]: Ist f : RT — [0,0] eine messbare Funktion (d.h. für alle 
a<beRgilt f"'(fa,d]) € B(R®), das wird zum Beispiel von stetigen 
Funktionen erfüllt), dann erhalten wir ein weiteres Maß u auf B(R“) 


nA) := l f(2) dAd(a) 


Für kompakte Quader A = [a,b] < R@ stimmt das hier verwendete 
Lebesgue-Integral übrigens mit dem Riemann-Integral überein [Bauer, 
Maß und Integrationstheorie, 16.4]. Doch auf die Konstruktion des In- 
tegrals werden wir erst in einem späteren Kapitel eingehen. Nach dem 
Satz von Radon-Nikodym ist die Existenz einer solchen Funktion f üb- 
rigens äquivalent, zu AX(A) =0 => u(A) = 0 (für alle A B(R®)). 


Mit Blick auf die Normalverteilung möchten wir einen Spezialfall von 
(vi) geben: Sei $ C R@ eine Borel-messbare Menge [d.h. S € B(R®)] 
und 0:5 — R* eine positive, integrierbare Funktion, mit 


/ ee 
Ss 


In diesem Fall nennen wir o eine Dichtefunktion und wir erhalten einen 
Wahrscheinlichkeitsraum (S,%,p) durch Einschränkung von B(RP) auf 
S,d.h.2=B(RY)NS:={BNS|BeB(R®)} und 


p:22[0,1: Am | oa) 
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Satz 11.3: 


(i) Sei $ #9 eine beliebige, nicht-leere Menge und zu jedem i € I (wobei 
auch / # ® beliebig) sei %; < P(S) eine o-Algebra auf $. Dann ist 
deren Schnitt wiederum eine o-Algebra auf $: 


N <C P(S) ist o-Algebra 
iel 


Ist nun U C P(S5) irgend eine Sammlung von Teilmengen von S, 
dann können wir also die von erzeugte o-Algebra definieren, also die 
kleinste o-Algebra, die U enthält: 


U) = Nez C P(S) | % ist eine o-Algebra, mit U C 2} 


(ii) Ist ($, A, u) ein Raum mit Inhalt dann sind die folgenden Aussagen, 
betreffend u, äquivalent [Bauer, Maß und Integrationstheorie, 3.2]: 


(a) „ist ein Prämaß, d.h. ist A: N — A eine Folge von Mengen aus 
A, die paarweise disjunkt sind (m #n => A(m)NA(n) =) so 
dass auch |), A(n) € A liegt, dann gilt: 


«(U am) = Zum) 
n=0 


neN 


(b) u ist von unten stetig, d.h. ist A: N — A eine aufsteigende Folge 
von Mengen aus A (also A(0) < A(1) C A(2) <C ...), so dass 
auch U), A(n) € A liegt, dann gilt: 


«(U Am) = Anna) 


neN 


(c) u ist von oben stetig, d.h. ist A: N — A eine absteigende Folge 
von Mengen aus A (also A(0) 2 A(l) 2 A(2) 2 ....), so dass 
auch f), A(n) € A liegt, dann gilt: 


«(NM A) = Anna 


neN 


(d) u ist Ö-stetig, d.h. ist A: N — A eine absteigende Folge von 
Mengen aus A (also wieder A(0) > A(1) 2 A(2) 2 ....), so 
dass f), A(n) = ® ist, dann gilt: 


lim u(A(n)) = 0 


N—XO 
(ii) Sei (5, A, u) ein Raum mit Inhalt, wobei u sogar ein Prämaß ist (s. oben) 
und bezeichne 3 = (A)y die von A erzeugte o-Algebra. Dann gibt es 


ein Maß &:% — [0,00], das u fortsetzt, d.h. so dass für alle A A 
gilt: 


7 


— 


Ist u weiterhin o-endlich, dann ist die Fortsetzung Z sogar eindeutig 
bestimmt. Man gewinnt & durch Beschränkung des äußeren Maßes 
u”: P(S) > [0,0] von u auf D: ist BC S dann ist 


w(B) := u Donate) 


neN 





A:N->A mitB< Ua | 


neN 


(Vorsicht: ein äußeres Maß ist kein Maß). Für einen Beweis dieser Aus- 
sage verweisen wir auf [Bauer, Maß und Integrationstheorie, 5.6]. 


Ist (5,2, u) ein Maßraum, dann gibt es einen vollständigen Maßraum 
(S,T,v) der (S,2, u) fortsetzt, d.h. für den gilt © < T und für alle 
Teilmengen A € % ist auch v(A) = u(A). Man erhält eine solche 
Fortsetzung, durch Einschränkung des äußeren Maßes u* auf 


T:= {[ACS|VBC $:u*(B) > w(ANB) + u*(B\A)} 


Der kleinste vollständige Maßraum (S,2, 2), der (5,2, u) fortsetzt, 
wird die Vervollständigung von (5,3, ,ı) genannt. Das bedeutet (5,3, 2) 
ist vollständig und ist (S,T,v) ein weiter vollständiger Maßraum, mit 
» C T und für alle A € 3 gilt v(A) = „(A) , dann gilt bereits el: 
und für alle AE% gilt auch u(A) = v(A). 


Ist u: B(R) — [0,0] ein Maß über den reellen Zahlen, dann definieren 
wir dessen Verteilungsfunktion F,, durch: 


Fu: R>[0,%] : br u(|-&,b|) 


Ist nun (5,%,p) ein Wahrscheinlichkeitsraum und F = F, die Vertei- 
lungsfunktion von p, dann besitzt F, die folgenden Eigenschaften: 


(1) F ist monoton steigend, d.h. sinda <beR, dann gilt auch die 
Abschätzung F(a) < Fb). 

(2) F ist linksseitig stetig, d.h. für alle b € R und alle e > 0 gibt 
es einö > O so dass für lea eRmit 0 <b-a<öd gilt: 
|F(b)- F(a)| <e. 

(3) Für die linksseitigen bzw. rechtsseitigen Grenzwerte von F‘(x) gilt: 

lim F(x) =0 und lmF(z) = 1 
I>-8 U 
Ist umkehrt F: R — [0,0[ eine Funktion mit den obigen Eigenschaf- 
ten (1), (2) und (3), dann gibt es ein eindeutig bestimmtes Wahrschein- 
lichkeitsmaß p : B(R) — [0,1] so dass F = F, die Verteilungsfunktion 


von p ist [Bauer, Maß und Integrationstheorie, 6.6]. Man erhält dieses 
durch Fortsetzung von 


p(la,b) = F(b) - F(a) 
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Definition 11.4: Zufallsvariablen: 


(i) Seien S, T beliebige Mengen und A C P($S) bzw. BC P(T) zwei o- 


(i 


(ii 


(iv 


) 


) 


) 


— 


Algebren darauf. Dann nennen wir eine Funktion f:$ — T messbar 
(oder genauer A-B-messbar) falls für alle Be B gilt: f*}(B) € A. 
Und die Menge all dieser Abbildungen bezeichnen wir, mit 


M(S,T) = {f:S—T|f ist messbar } 


Proposition: Ist V C P(T) eine Familie von Teilmengen von T und 
B= (V)y die von V erzeugte o-Algebra, dann genügt es die Messbar- 
keit von f:$ — T nur für Mengen aus V zu überprüfen, denn: 


f ist messbar <> VVev: fıV)EeA 


Proposition: Ist f : $ — T beliebig, dann erhalten wir eine o-Algebra 
auf S, durch D(f) := { f'(B) | Be B}. Offensichtlich ist f also im- 
mer D(f)-B-messbar. Und mit dieser können wir die A-B-Messbarkeit 
von f offensichtlich formulieren, als 


f ist messbar > (ff) TA 


Ist (5, A, u) sogar ein Maßraum und f : $S — T messbar, dann erhalten 
wir auch ein Maß (push-forward genannt) fu auf T, durch 


F«u(B) = uf” (B)) 


Sei 7 # ® eine beliebige Indexmenge und zu jedem Index i € I sei 
eine o-Algebra B; < P(T;) auf der Menge T; und eine Abbildung 
fi :5 — Ti; gegeben. Dann definieren wir: 


S(klieND = U{F'B)|BieB})s 
viel 
Proposition: Dies ist offenbar die kleinste o-Algebra auf $, so dass 


alle f; messbar werden. D.h. es gilt die Äquivalenz 


Viel: fi istmesbar > Sf lieN CA 


Sei A < P(S) immer noch eine o-Algebra, dann fixieren wir nun 
B=B(R) die Borel-o- Algebra auf R. Und wir nennen X:$ — Reine 
Zufallsvariable auf S, falls X messbar ist, d.h. falls gilt 


Va<beR : X !(la,b[) € A 


Proposition: die Menge aller Zufallsvariablen auf $ bezeichnen wir 
mit Z(5) := M(S,R). Dann ist Z($) eine kommutative R-Algebra 
unter der punktweisen Addition und Multiplikation von Funktionen, 
die mit X e Z(S) auch X; = (|X] + X)/2 und X_ = (|X| - X)/2 
und |X]| enthält [Bauer, Maß und Integrationstheorie, 9.4 und 9.8]. 
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(vi) Ist nung: R— {wahr, falsch } ein Prädikat auf den reellen Zahlen, 


(vi) 


(viii 


— 


so dass o”"!(wahr) € B(R) ist - also zum Beispiel (x) = (x = a) oder 
(2) = (x >a) oder auch p(z) = (x? < a) für eine fest gewählte Zahl 
a € R- dann verwenden wir auch die Schreibweise: 


plp(X)) := pl{seS|p(X(s))}) € 1 


Wir werden auf die Integration erst in Kapitel 17 eingehen, dennoch 
wollen wir hier schon den Erwartungswert E(X), die Varianz V(X) 
einer, bzw. die Kovarianz o(X | Y) zwischen zwei (hinreichend inte- 
grierbaren) Zufallsvariablen X und Y € Z(S), auf dem Wahrschein- 
lichkeitsraum (S,%,p), definieren: 


EX) := " X(s)dp(s) = ji ae 
oX|Y) = EX -ER): X - EM) 
= E(XY)- E(X)E(Y) 
X) = o(X|X) = E((X-EX))) 


= xto) - ER? ante 


Ist (S,_A,p) ein beliebiger Wahrscheinlichkeitsraum und X € Z(5) eine 

Zufallsvariable mit Erwartungswert u := E(X) und endlicher Varianz 

0? :=V(X)< ©, dann definieren wir die Standardisierung von X: 
XA-U 


A z e 2(5) 





Aufgrund der Linearität des Erwartungswertes rechnet man leicht nach, 
dass Z nun zentriert ist und Varianz 1 besitzt: 


EIZ) = EX) u Ei) = 0 
v2: = 2(Z)-2Z, = 22 
= ZE(X- m) 
= ZN) Zi 


(ix) Lemma: Tschebyscheff Ungleichung: Die Varianz ist von zentraler Be- 


deutung, da sie eine Abschätzung für die Wahrscheinlichkeit der Ab- 
weichung vom Erwartungswert liefert. Sei ($,%,p) ein Wahrscheinlich- 
keitsraum und X € Z(S) eine Zufallsvariable, mit u := E(X) und 
0?:=V(X) < oo. Sei ferner @ > 1 eine beliebige Zahl, dann gilt 


1 
p(X-ul>a0) < = 
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E 


(Ki) 


Beweis: Wie bezeichnen die Menge A := {se S||X(s) - u| 2 ac }, 
dann ist also p(A) < 1/a? zu zeigen. Zunächst ist A € A, da X 
messbar ist. Wir bezeichnen mit Z := (X — u)/o wieder die Stan- 
dardisierung von X. Dann ist offenbar A = {se S| |Z(s)| > a} = 
{se S| Z(s)? > a? }. Und nach Konstruktion von A gilt damit 


ap(A) = h o2dp(s) < / Z(s)2dp(s) 


A 


/ Z(s)?dp(s) = E(Z2) = 1 


IA 


Als Verallgemeinerung der Varianz in (vii) definiert man das n-te Mo- 
ment der Zufallsvariablen X € Z durch m„(X) := E(X”) und be- 
zeichnet u := mı(X) = E(X) den Erwartungswert, dann wird das 
n-te zentrale Moment von X definiert, als »,(X) := E((X — u)"). In 
diesem Sinne ist die Varianz V(X) = z2a(X) einfach das 2-te zentrale 
Moment. Die Berechnung der (zentralen) Momente kann sehr mühse- 
lig sein - deswegen bedient man sich gerne eines eleganten Tricks: Man 
betrachtet die momente-erzeugende Funktion 


ti” 


Mx(t) := E(e'X) = 2009 = mX)ı, 
n=0 


n=0 


In vielen Fällen kann man Mx(t) effektiv berechnen und die Reihe 
konvergiert in einer Umgebung von t = 0. Dann aber kann man das 
n-te Moment durch n-malige Ableitung dieser Funktion gewinnen: 


mn(X) = (EMxX)E=0) 
Bleibt die Frage wie man die zentralem Momente berechnen kann: sind 


die Momente bekannt, kann man die Binomialformel für (X — u)” aus- 
nutzen. Aufgrund der Linearität von E findet man: 


zu(X) = int () wT® ma (X) 


0 
Sei (S,%,p) ein Wahrscheinlichkeitsraum und (X„) < Z(5) eine Folge 
von Zufallsvariablen auf S. Ist X € Z(S$) eine weiter Zufallsvariable 
auf S, dann sagen wir, dass (X„) p-fast sicher gegen X konvergiert 


Xn — X p-fast sicher 


wenn eine der folgenden, äquivalenten Bedingungen erfüllt ist: siehe 
[Bauer, Maß und Integrationstheorie, 20.6] für einen Beweis 


Ve>0:p|f) WUfses | I()-X(s)|>e}) = 0 


neN pzn 


Ve>D“% ‚im p({se 5 | supf{ |Xp(s) - X(s) |pzn}>e}) = 0 
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ve>0: imp(tses | supt X) -X(a)lIpn}<e) = 


(xü) Ist X e Z($) eine Zufallsvariable auf dem Wahrscheinlichkeitsraum 
(5,2,p) dann induziert X ein Wahrscheinlichkeitsmaß auf R durch 
push-forward X,p : B(R) > [0,1] : Br p(X e B). Wir kürzen 
die Sprechweise ab und nennen die Verteilungsfunktion dieses Maßes 
wiederum die Verteilungsfunktion Fx : R— [0,1] von X selbst. 
D.h. für be R definieren wir 


Fx(b) := Fxo(bb) = piseS|Xls)<b}) 


— 


Sei (S,%,p) ein Wahrscheinlichkeitsraum, 7 #0 wieder eine beliebige 
Indexmenge und zu jedem ö € I sei X; € Z(5$) eine Zufallsvariable auf 
5. Dann nennen wir die X; identisch verteilt, falls alle X; dieselbe 
Verteilungsfunktion auf R erzeugen, d.h. falls sie für alle i, j € I eine 
der folgenden vier, äquivalenten Bedingungen erfüllen: 


(xiii 


a 2x 


I. 


=. 

b) (X = = (Xy)p 
(©) VBEB(R) : p(X; (B)) = p(X,'(B)) 
(d 


( 
( 


) Ya<bER : p(X;"(fa,d])) = p(Xz (la, |) 


Sind Xı und Xa € Z(S$) identisch verteilt, dann schreiben wir auch 
Xı» X3 und damit ist » eine Äquivalenzrelation auf Z(S). 


Beispiel 11.5: 


(i) Für uns gibt es zwei wichtige Fälle: ist (S,p) ein Laplace Raum, dann 
betrachten wir wieder (S,P(S),p) den zugehörigen Wahrscheinlich- 
keitsraum. In diesem Fall ist offenbar jede Funktion X :$ — R eine 
Zufallsvariable Z(5) = F(S,R). Und X(5) C R hat höchstens so vie- 
le Elemente wie 5 selbst, ist also abzählbar. Damit ist X genau dann 
integrierbar, wenn die Zahlenfamilie s> X(s)p(s) summierbar ist und 
in diesem Fall wird der Erwartungswert zu 


E(X) = [x )dp(s) = > ,X(s)p 


ses 
= 2 2 Kme)= % % ap) 
zeX(5) X(s)=x xeX(5) X(s)=x 
= > 2 = p(s) = > zp (X"'(&)) 
zeX(5) X(s)=x xEeX (5) 


Dabei schreibt man p(X"!(x)) = (X,p)(x) oft auch suggestiv als 
p(X = x) da es sich dabei um die Wahrscheinlichkeit handelt mit 
der X den Wert x annimmt. Insgesamt also 


E(X) = > zp(X=E) 


ze‘ (S) 
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(ii) Der zweite wichtige Fall ist der einer Dichtefunktion 0: S — [0,1] auf 
einer Menge $ € B(R“). Wie im obigen Beispiel gesehen, erhalten wir 
daraus einen Wahrscheinlichkeitsraum ($, B(R®) N S,p) durch 


ra) = | e@)axa) 


Ist X e Z(5$) eine Zufallsvariable, dann ist X genau dann p-integrierbar, 
wenn oX über $ A@-integrierbar ist. In diesem Fall wird der Erwar- 
tungswert von X, zu 


ER) = | Xoante) = | Xs)ets) ax‘) 


Definition 11.6: Produkträume 


(i) Sei zu jedem € 1...n ein o-endlicher Maßraum (S;,%;, u;) gegeben. 
Dann erhalten wir einen weiteren o-endlichen Maßraum - genannt den 
Produktraum der ($;,%;, 4) - durch 


n 


SS, u, 1) = ($,2, u) 


i=1 


Dabei ist der Grundraum 5 gerade das kartesische Produkt der S;, 
d.h. die Menge aller n-Tupel deren :-ter Eintrag aus S; stammt: 


 — II: = 5) Vie kon: He) 
i-1 


Wir bezeichnen eine Menge der Gestalt Aı x -:: x A„ wobei für alle 
ie 1...n jeweils A, € %, sei, als Zylindermenge. Die Menge aller 
Zylindermengen bezeichnen wir mit 


i=1 


Offensichtlich ist C < P($) eine N-stabile Familie von Mengen auf $. 
Die von den Zylindermengen erzeugte o-Algebra nehmen wir als 





viel...n: wen) 


re Ce einstellen) 


Wir erhalten einen Inhalt u auf den Zylindermengen C indem wir die 
Inhalte wu; multiplizieren (siehe unten). Dieser Inhalt ist dann ein o- 
endliches Prämaß und daher können wir u dann zu einem Maß auf % 
fortsetzen. Wir bezeichnen die Fortsetzung wieder mit u, dann ist u 
also das eindeutig bestimmte Maß auf % mit der Eigenschaft 


v]J4ec j «(H«) = I] «4 
= i = 
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(i) Seinun T #0 eine beliebige Indexmenge und zu jedem i € I sei ein 
Wahrscheinlichkeitsraum (S;,0;, pi) gegeben. Dann erhalten wir einen 
weiteren Wahrscheinlichkeitsraum - genannt den Produktraum der 
(55,.2,03) - durch 


I ,) = (SLR) 
iel 
Dabei ist der Grundraum $ wieder das kartesische Produkt der S$;, 
d.h. die Menge aller /-Tupel deren i-ter Eintrag aus S; stammt: 
Ss = ][& = {(s|Viel:se&} 
iel 


Die Menge aller nicht-leeren, endlichen Teilmengen von / bezeichnen 
wir wieder mit O(I) := {a C I|a#£B und #a <a}. Damit defi- 
nieren wir dann wieder die Menge der Zylindermengen von S, vermöge 


C:= U C„ wobei Ca := IITA 


aen(I) iel 





Viel:,ei, 
Yiea:A=$; 


D.h. eine Zylindermenge ist in diesem Fall wieder ein kartesisches Pro- 
dukt von Mengen A, € 2%; es sind aber nur endlich viele Mengen 
A; # Si; zugelassen. Ist I endlich, so ist C also genau das oben de- 
finerte System von Zylindermengen. Und wieder ist C dann N-stabil 
und die von den Zylindermengen erzeugte o-Algebra nehmen wir als 


= ()s = %m:S>Slie]) 


Man beachte, dass p;(S;) = 1 keinen Beitrag zu dem Produkt leistet, 
und deshalb erhalten wir wieder ein Wahrscheinlichkeitsmaß p auf D, 
dass eindeutig bestimmt wird, durch die Eigenschaft 


vacaınv]faec. ö » (IA) = I] 4) 
i=1 


viel iea 


Beispiel 11.7: 

Sei / eine abzählbare (zum Beispiel endliche) Menge und zu jedem i € I 
sei ein Laplace-Raum (S;,p;) gegeben. Dann stammt der Produktraum der 
zugehörigen Wahrscheinlichkeitsräume (5;, P(S;),p;) wiederum von einem 
Laplace-Raum (S,p) und dieser ist gegeben, durch: 


iel 
5 = ][& 


iel 


p((s)) = Tri) 


iel 
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Kapitel 12 
Unabhängigkeit 


In Kapitel 7 haben wir den Begriff der bedingten Wahrscheinlichkeit p(A | B) 
des Eintreffens eines Ereignisses A unter der Bedingung B definiert. Wenn 
sich diese Wahrscheinlichkeit aber gar nicht durch die Bedingung B verän- 
dert, also wenn p(A | B) = p(A) gilt, dann gibt es Sinn zu sagen, dass A von 
B unabhängig ist. Und wir haben gesehen, dass eine äquivalente Formulie- 
rung dieser Eigenschaft lautet 


p(ANnB) = p(A):p(B) 


Wir nehmen diese Gleichung als Grundlage für die Definition der Unabhän- 
gigkeit einer Menge von Ereignissen. Die Unabhängigkeit einer Menge von 
Ereignissen wird dann erweitert zur Unabhängigkeit von Zufallsvariablen. 
Wir werden feststellen, dass der Erwartungswert bei unabhängigen Zufalls- 
variablen multiplikativ und die Varianz bei unabhängigen Zufallsvariablen 
additiv verhält. Doch das eigentliche Ziel dieses Kapitels ist das Gesetz der 
großen Zahlen, das besagt, dass der Durchschnitt bei unabhängiger Wie- 
derholung eines Zufallsexperimentes tatsächlich gegen den Erwartungswert 
konvergiert. Dieser Satz bietet also den Übergang zwischen Statistik und 
Stochastik. 


Definition 12.1: Unabhängigkeit: 


(i) Sei ($,%,p) ein Wahrscheinlichkeitsraum und U < 2 eine beliebige 
Menge von Ereignissen aus $. Dann nennen wir U unabhängig falls 
für je endlich viele (1 <neN) Ereignisse Aı,..., An €U gilt 


p(AıN:--N An) _ p(Aı) RER, p(An) 


(ii) Satz: Lemma von Borel-Cantelli [Bauer, Wahrscheinlichkeitstheorie 
11.1]: It {A„|ne N} C % eine Folge von Ereignissen, für die die 
Reihe über p(A,„) konvergiert, dann ist die die Wahrscheinlichkeit, dass 
unendlich viele dieser Ereignisse gleichzeitig eintreten 0 


> D(An) < © —y in, »(D “) = 
n=0 


k=n 
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(iii) 


(vi 


(vü 


— 


i) 


— 


Sind die A„ paarweise unabhängig (d.h. für allem Zn e N sind Am 
und A„ unabhängig) und divergiert die Reihe über die p(A„), dann 
ist die die Wahrscheinlichkeit, dass unendlich viele dieser Ereignisse 
gleichzeitig eintreten 1 


Says => in, »(Ü “) -1 
n=0 


k=n 


Sei I #9 eine beliebige, nicht-leere Indexmenge und zu jedem i € I sei 
eine Menge U; C % von Ereignissen gegeben. Dann heißt die Familie 
(U;) unabhängisg, falls für je endlich viele Indices { i(1),...,ön)} CI 
und Mengen A; € U;x) gilt: 


p(AıN:--N An) _ p(Aı) Re p(An) 


Satz: [Bauer, Wahrscheinlichkeitstheorie 6.4]: Ist für alle « € I die 
Menge U; < 2 N-stabil und bezeichnet 3; := (U;)s T % die von 4; 
erzeugte o-Algebra, dann sind die folgenden beiden Aussagen äquiva- 
lent: 


(a) (U;) ist unabhängig 
(b) (2) ist unabhängig 


Sei wieder I #® eine beliebige, nicht-leere Indexmenge und zu jedem 
i € I sei eine messbare Funktion f; : $ — T,; für irgendeine Menge T; 
mit einer o-Algebra B; < P(T;) gegeben. Dann nennen wir die Familie 
(fi) unabhängig falls die Familie der o-Algebren (D(f;)) unabhängig 
ist. Anders gesagt, falls für je endlich viele Indices { i(1),...,ön)} CI 
und Mengen Bj € B;) gilt: 


p (N De) = ]I» (vch (Bi) 
k=1 k=1 


Satz: [Bauer, Wahrscheinlichkeitstheorie 8.1]: Sei (S,%,p) ein Wahr- 
scheinlichkeitsraum und X1,...,Xn € Z($) seien integrierbare Zu- 
fallsvariablen auf $. Sind diese unabhängig (d.h. die Familie (X;) ist 
unabhängig), dann gilt: 


(ir) = 


Satz: [Bauer, Wahrscheinlichkeitstheorie 8.3]: Sei ($,%,p) ein Wahr- 
scheinlichkeitsraum und X1,...,Xn € Z(5) seien integrierbare Zufalls- 
variablen auf $. Dann rechnet man leicht nach, dass: 


v(%x) = re >, AK |X;) 


1<i<j<n 
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(viii) 


Sind die X; paarweise unabhängig, so gilt insbesondere o(X; | X,) = 0 
wegen (vi) (man sagt die X; sind auch unkorreliert). Und damit ist die 
Varianz additiv auf paarweise unabhängigen Zufallsvariablen: 


Satz: Chernoff-Schranken: Ist (S,%,p) ein Wahrscheinlichkeitsraum 
und sind X} bis X, € Z(S) unabhängige Zufallsvariablen auf S, mit 
Wertebereich X;(5) < [0,1] für allex € 1...n gilt, dann bezeichnen 
wir X := X1+...+Xn € Z(5) und u := E(X) = E(X1)+...+E(Xn). 
Und damit gilt dann für alle « > 0 





pX2(l+a)a) < exp (- 2 ») 


2+Q 

a 
PX >(L-a)n) < exp (-5%) 
a? 





X - ul > < 2.e _ 
p(X-ul2ap) < w( a) 


Satz: Sind X und Y € Z(S) unabhängige Zufallsvariablen auf dem 
Wahrscheinlichkeitsraum (5, %, p), mit den Dichtefunktionen fx bzw. fy 
d.h. für allebeR gilt 


b b 
Fx(b) = / fx()dt und Fy() = / fr(t)at 


dann hat die Summe X +Y e Z(5) die Dichtefunktion fx * fr der 
Faltung von fx und fy. D.h. für allebeR gilt explizit 


b 
eye / l fx): fv(a - t)dtdz 


Insbesondere: sind X und Y : $ — Z diskrete Zufallsvariablen dann 
gilt für die Wahrscheinlichkeit, dass X+Y=keZ ist: 


pPIX+Y=k) = Y,p(X=i):p(Y =k-i) 
ieZ 


Beispiel 12.2: 


(i) Wir werfen zwei Würfel, d.h. wir betrachten den Wahrscheinlichkeits- 


raum (5, P(5),z), wobei $ = (1...6)? und z das Zählmaß (siehe oben) 
ist. Wir betrachten nun die folgenden Ereignisse 


U}: <= I (dı,ds) € 5 | dı ungerade } 
U: := I (dı,ds) € 5 | da ungerade } 
Vs I (dı,ds) € $ | dı + da ungerade } 
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(i 


(ii 


(ii 


— 


) 


) 


— 


Offensichtlich sind alle Paare { U),U2a }, {U1,V } und {Ua,V } unab- 
hängig. Aber { U1,Ua,V } ist nicht unabhängig, da UıNUNV = 
unmöglich ist. Es ist also nicht möglich von der paarweisen Unabhän- 
gigkeit auf die gesamte Unabhängigkeit zu schließen. 


Wir betrachten wieder den Raum von 3 Würfeln, d.h. diesmal sei 
S = (1...6)°. Mit X, :9 —1...6 < R wählen wir das Ergeb- 
nis des k-ten Würfels aus, d.h. X,.(dı,da,dg3) := d,. Dann sind X}, Xa 
und X3 voneinander unabhängig und identisch verteilt. Betrachtet man 
hingegen die Summen 5; = X + Xa der ersten, bzw. Sk = Xa + X3 
der letzten beiden Würfel [also $S; und Sr: $ — 2...12 C Rmit 
Sı(dı, da, d3) ‘= dı+tda beziehungsweise Sr(dı, da, da) = do +ds] dann 
sind $; und Sr wieder identisch verteilt, aber nicht mehr unabhängig 
voneinander. 


Wir betrachten den Raum von n Münzwürfen: $ = {0,1}”. Wie- 
der wird (S,P(S),z) zum Wahrscheinlichkeitsraum, wobei #5 = 2" 
Elemente hat. Dann sind zwei binäre Zufallsvariablen X, Y:$9 — 
{0,1} C R genau dann gleich verteilt, wenn sie gleich oft, das Ergeb- 
nis 1 produzieren, d.h. wenn gilt: 


#{seS|X()=1} =#{seSs|Y()=1} 


Es kommt dabei nicht darauf an, welche der Wurffolgen von X bzw. Y 
ausgewählt werden - es genügt, dass es gleich viele sind. Insbesondere 
können X und Y unabhängig sein, oder auch nicht. 


Ist allgemein zu jedem ö € I (I eine beliebige Indexmenge) ein Wahr- 
scheinlichkeitsraum (S;,%;,p) gegeben und bezeichnen wir deren Pro- 
duktraum wieder mit ($,%,p) dann sind die kanonischen Projetionen 


7:99 : (Ss) Sk 


nach Konstruktion unabhängige Zufallsvariablen. D.h. der Produk- 
traum modelliert die unabhängige Durchführung der / verschiedenen 
Zufallsexperimente (S;,%;,p;). Sind diese Räume identisch, dann wäre 
das also die /-malige Ausführung desselben Zufallsexperiments. Bei- 
spiele wären n-maliges Würfeln oder Ziehen mit Zurücklegen. 


Ist (S,%,p) ein beliebiger Wahrscheinlichkeitsraum und Aı bis A, eine 
endliche Überdeckung von S, d.h. es gilt $ = AıU--- U A„. Sind diese 
Ereignisse Aı bis A, unabhängig, dann muss es zwingend ein fast- 
sicheres Ereignis A, darunter geben. D.h. es gilt 





{ A1,...,„An} unabhängig — Ikel...n:p(A) =1 
Denn die Unabhängigkeit der A; besagt gerade, dass füralleI C 1...n 


gilt, dass p(N);er Ai) = Iljerp(A:) ist. Wegen p($) = 1 ist das aber 
gerade die zweite Voraussetzung in (10.6), so dass p(Ar) = p(S) folgt. 
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Satz 12.3: von Etemadi: Gesetz der großen Zahlen 
Sei (5,%,p) ein Wahrscheinlichkeitsraum und X, € Z(S) (mit ne N) eine 
Folge von Zufallsvariablen auf S, so dass gilt: 


(1) Alle X, sind p-integrierbar (d.h. es ist [ X„dp < oo, näheres dazu 
findet sich im Kapitel 17 zur Integrationstheorie), 


(2) Die X, sind identisch verteilt, d.h. es gibt eine Funktion F:R — [0,1], 
so dass für alene NundallexeR gilt p Xu <x)= F(kx), 


(3) Die X, sind paarweise unabhängig, d.h. für allem Zn € N und alle 
Borel-Mengen Bin; Bn € B(R) gilt 


(X (Bm) X (Bn)) = PX! (Bm) PX" (Br) 


Dann konvergiert für n — oo der Durchschnitt der X, p-fast sicher gegen 
den Durchschnitt der Erwartungswerte E(X,„), formal ausgedrückt: 


1 n 
= ) (X, - E(X,)) — 0 p-fast sicher 
n 

k=1 


Bemerkung 12.4: 

Ist (S,p) ein Laplace Raum, dann betrachten wir den zugehörigen Wahr- 
scheinlichkeitsraum (S, P(S),p) und zu se S bezeichne X,:9 > {0,1} < 
R die Funktion X,(t) := 1 für t = s und X,(t) = 0 sonst, die testet, ob 
s vorliegt. Wir können das Experiment (ziehen und schauen ob wir s er- 
wischt haben) beliebig oft wiederholen. Starten wir unter immer gleichen 
Ausgangsbedingungen (also mit Zurücklegen), so sind die einzelnen Ver- 
suche voneinander unabhängig und der Raum der n-fachen Durchführung 
modelliert, durch 


(8,P(5),p)”” = (8",P(8”),p") 


Um eine Grenzwertbetrachtung durchführen zu können müssen wir unendlich 
viele Durchführungen des Experiments zulassen, d.h. wir müssen unendlich 
lange Folgen (s;) € S betrachten. Der zugehörige Raum ist 


(S,P(5), PP" = (ST, PS), PN) 
Wir bezeichnen mit m, : SYN = $: (s;) > s;, wieder die kanonischen Pro- 
jektionen und mit X, := Xsnk : SN = {0,1} den Test auf das Vorkommen 


von s an k-ter Stelle. Offensichtlich sind die X, unabhängig und identisch 
verteilt, so dass gilt 


1 n 
z > (X - E(X,)) > 0 p-fast sicher 
k=1 
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Es ist E(X,) = 1: p(X, = s) = p(s) konstant und damit können wir die 
E(X,) aus der Summe ziehen und auf die andere Seite stellen, zu 


1 n 
— ) Xr — p(s) p-fast sicher 
n 

k=1 


D.h. die (mit p gemessene) relative Häufigkeit von s bei n Ziehungen nähert 
sich der zugrunde gelegten Wahrscheinlichkeit p(s) an. Wir haben also eine 
exakte Formulierung des empirischen Gesetzes der großen Zahlen gefunden. 


Aus dem Gesetz der großen Zahlen erhält man ein weiteres starkes Resultat, 
dass nicht umsonst auch als Fundamentalsatz der mathematischen Statistik 
bezeichnet wird: 


Korollar 12.5: von Glivenko-Cantelli: 
Sei ($,%,p) ein Wahrscheinlichkeitsraum und X, € Z(5) (mitn €e N) wieder 
eine Folge von Zufallsvariablen auf 5, so dass gilt: 


(1) Alle X, sind p-integrierbar (d.h. es ist [ X„dp < oo, näheres dazu 
findet sich im Kapitel 17 zur Integrationstheorie), 


(2) Die X, sind identisch verteilt, d.h. es gibt eine Funktion F:R — [0,1], 
so dass für alene N undallexeR gilt p X, <z) = F(kx), 


(3) Die X, sind paarweise unabhängig, d.h. für allem Zn € N und alle 
Borel-Mengen By, Bn € B(R) gilt 
PK Bm) X Br)) = PX" (Bm)) P(Xy'(Bn)) 


Dann definieren wir die empirische Verteilungsfunktion PN: S x R- [0,1] 
der ersten n Zufallsvariablen X} bis X, als den Anteil 


FILE Lan | Kt) Se 


Fu(s)(®) - 





Dann konvergiert 2 > F1(s)(x) für p-fast alle gleichmäßig gegen die gemein- 
same Verteilungsfunktion F' der Zufallsvariablen X„, d.h. es gilt 


p({ses | im IF- Flo} =0) = 1 

N—OO 
Bemerkung: von gleichmäßiger Konvergenz der Folge (F„(s)) von Funktionen 
gegen die Funktion F spricht man, wenn der maximale Abstand (gemessen 
durch das Supremum) der beiden Funktionen im Limes gegen 0 geht. Dieser 


Abstand wird gemessen durch die Supremumsnorm 


IF Fr(s) Io = wa] 
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Beispiel 12.6: 
Die folgende Abbildung illustriert die Situation bei einer Gleichverteilung 
auf S = [0,1], d.h. es ist p([a,b)) =b-afür0O<a<b<1.D.h. wir ziehen 
eine zufällige Zahl x € S, wobei alle Zahlen gleich wahrscheinlich sind. Um 
beliebig viele unabhängige Ziehungen zu modellieren, verwenden wir wieder 
den Produktraum 

(5, B(R) N 5, p)®" 


Die n-te Ziehung aus 5 bezeichnen wir mit X„, d.h. es ist X : SN 
$:(2;) # £n- Die Verteilungsfunktion von X, ist damit immer F(x) = x 
(für ze S, für <0Oist F(x) = O0 und für x > List F(x) = 2). In 
der folgenden Abbildung haben wir n = 10 dargestellt: d.h. wir haben 10 
Zufallszahlen x; € S bestimmt, deren (empirische) Verteilungsfunktion ist 
blau eingezeichnet. Man sieht, dass diese in der Nähe der rot gezeichneten 
(theoretischen) Verteilungsfunktion F liegt. Je größer n wird (je mehr Zahlen 
wir ziehen), desto besser wird die Annäherung. Der obige Satz sagt, dass die 
Konvergenz sogar (fast sicher) gleichmäßig ist: 


1 
0.9 
0.8 
0.7 
0.6 
0.5 
0.4 
0.3 _ 
0.2 BE 
0.1 
0 
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Vorsicht: die empirische Verteilungsfunktion F„($) in obigem Satz wurde 
über die Zufallsvariablen X, definiert. Sie modelliert zwar die n-fache Zie- 
hung aus $, das sagt aber nicht viel über eine tatsächliche, real erfolgende 
Ziehung. F„(s) ist nur der Durchschnitt über (die Verteilungsfunktionen) 
aller möglichen Ziehungen. Und wie immer sagt eine Statistik leider nichts 
über den Einzelfall aus. In diesem Fall gibt es andere Zufallszahlen x;, deren 
Verteilungsfunktion eine deutlich schlechtere Übereinstimmung mit der Dia- 
gonalen zeigt, aber eben auch solche bei denen die Übereinstimmung besser 
ist. Wir wissen also nur, dass die durchschnittliche Abweichung im Grenz- 
wert n — 00 fast sicher 0 wird. 
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Kapitel 13 


Normalverteilung 


Normalverteilung: 

Beginnen wir mit einem einfachen Experiment: wir werfen 4 (6-seitige) Wür- 
fel und addieren deren Augensummen. Das Ergebnis wird also eine Zahl von 
4 bis 24 sein, doch die Ergebnisse werden nicht gleich häufig sein: um die Zahl 
4 zu erhalten, müssen alle 4 Würfel eine 1 zeigen, um eine 14 zu erreichen 
gibt es sehr sehr viele Möglichkeiten. Wir beobachten also eine Konzentrati- 
on auf mittlere Werte, da die einzelnen Würfelergebnisse sich ja gegenseitig 
ausgleichen können. 

Bei m > 4 Würfeln, wird dieser Effekt noch deutlicher - die Randereig- 
nisse m und 6m werden im Vergleich zum Erwartungswert 3.5 - m immer 
seltener. Das beobachtet man auch beim Galton-Brett [eine einfache Simu- 
lation dessen findet man unter http://www.heise.de/download/galton-brett- 
1116390.html]. Je mehr Stufen man im Galton-Brett durchlaufen lässt, de- 
sto besser nähert sich die Häufigkeitsverteilung einer Grenzverteilung - einer 
sog. Normalverteilung - an. Das erstaunliche ist, dass sowohl das Würfelex- 
periment, als auch das Galtonbrett denselben Typ Grenzverteilung besitzen. 

Doch eigentlich ist dies gar nicht so erstaunlich: In beiden Fällen wird 
ein und derselbe Versuch immer wieder (unabhängig voneinander) wieder- 
holt, so dass sich die einzelnen Ergebnisse gegenseitig aufheben können, wo- 
durch eine Konzentration in der Mitte entsteht. Dies ist gerade die Aussage 
des zentralen Grenzwertsatzes: Kombiniert man m Versuche mit derselben 
Wahrscheinlichkeitsverteilung so, dass die einzelnen Versuche voneinander 
unabhängig sind, dann nähert sich das Ergebnis im Grenzwert m — 00 einer 
Normalverteilung an. Eine exakte Formulierung dieses Ergebnisses werden 
wir noch in diesem Kapitel geben. 

Doch zunächst zurück zu unserem Ausgangsexperiment: der Augensum- 
me von 4 Würfeln. Eine einfache kombinatorische Überlegung (Induktion 
über m) liefert die Anzahl der Kombinationen die die Augensumme se $ = 
4...24 liefern. Und da es insgesamt 6* = 1296 Kombinationen gibt, erhält 
man daraus die folgende Häufigkeitsverteilung der Ergebnisse: 


125 


s \n(s) | his) sus) | s| nis) | Als) | 90,5) 
4| 10.0008] 0.0016 |15 | 140 0.1080 | 0.1119 
5| 40.0031 | 0.0036 | 16 | 125 | 0.0965 | 0.0984 
6| 1010.0077 | 0.0075 |17 | 104 | 0.0802 | 0.0794 
7 
8 
9 





20 | 0.0154 0.0143 | 18 80 | 0.0617 0.0588 
35 | 0.0270 0.0250 | 19 56 | 0.0432 0.0400 
56 | 0.0432 0.0400 | 20 35 | 0.0270 0.0250 
10 80 | 0.0617 0.0588 | 21 20 | 0.0154 0.0143 
11 | 104 | 0.0802 0.0794 | 22 10 | 0.0077 0.0075 
12 | 125 | 0.0965 0.0984 | 23 4 | 0.0031 0.0036 
13 | 140 | 0.1080 0.1119 | 24 1 | 0.0008 0.0016 
14 | 146 | 0.1127 0.1168 | & | 1296 | 1.0000 0.9980 























Aus dieser Häufigkeitsverteilung lässt sich der Durchschnitt u := A(x) = 14 
und die Standardabweichung o := o(x) = 3.42 berechnen. In der obigen Ta- 
belle haben wir bereits die tatsächlichen relativen Häufigkeiten h(s) mit der 
Häufigkeitsdichte g(w, o, s) der Normalverteilung zu diesem Wertepaar (4, 0) 
verglichen (die erst im folgenden gegeben wird). Man beachte, dass es sich 
bei der Abweichung nicht um Rundungsfehler, oder zufällige Abweichungen 
handelt. Die Abweichung ist systematisch - sie verschwindet erst, wenn die 
Anzahl m der Würfel unendlich m — © wird. Die Tatsache, dass die Ge- 
samthäufigkeit der angenäherten Verteilung g(w,o,s) nicht 1 ergibt, liegt 
daran, dass es sich hierbei um eine Häufigkeitsdichte handelt, die eben nicht 
zu einem diskreten Problem passt. Dass die Übereinstimmung aber trotzdem 
schon recht gut ist zeigt das folgende Histogramm, in dem die tatsächliche 
Häufigkeitsverteilung der 4 Würfel blau und die der Normalverteilung rot 
eingezeichnet ist. 
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126 


Definition 13.1: 
Seien u, o € R beliebige Parameter, dann definieren wir die Gauss-Funktion 
g(u,0):R— R* zum Mittelwert u und zur Standardabweichung o durch 


Damit ist g(u,c) eine Dichtefunktion über R (d.h. das Integral von g(u, c) 
über R ist 1) und damit erhält man ein Wahrscheinlichkeitsmaß Y(u,o) auf 
der Borel-o-Algebra B(R) durch (wobei A C R Borel-messbar) 





ya, A) := Jwo.na 


Die die zugehörige Verteilungsfunktion zu diesem Wahrscheinlichkeitsmaß 
wird mit ®(u,o) : R— [0,1] bezeichnet. D.h. wir definieren 


®(1,0, x) = g(u,o,t)dt 


00 


Insgesamt ist die Normalverteilung zum Mittelwert u € R und zur Stan- 
dardabweichung o > 0 also der eben definierte Wahrscheinlichkeitsraum 


N (u, eo) = (R, BÜR), y(a,c)) 


Bemerkung 13.2: 
Der Vorfaktor von g(u,c) ist so gewählt, dass das Integral von g(wu,c) über 
ganz R gleich 1 wird (sonst wäre y(w,c) kein Wahrscheinlichkeitsmaß) 


/ smo,t)d = 1 
R 


Offensichtlich ist g(u, 0) achsensymmetrisch, zu x = u, was dazu führt, das 
®(u,o) punktsymmetrisch zu (u | 1/2) ist und daher gilt für allexe R 


(lu,o,u+?) = 1-du,o,u-2) 


Des weiteren ergeben sich für g(u,c) die folgenden Ableitungen (nach der 
Variablen x, bei konstanten Parametern u und o) 


1 
8.9(4,0,2) = 2 ® = R)a(n, 0,2) 


Ö2g(m,0,2) = le) (ann. 


Und damit kann man leicht nachrechnen, dass das Schaubild von g(wu,c) den 
folgenden Hoch- bzw. die folgenden beiden Wendepunkte hat 


1 1 
HP bei — und WP bei +0 | — 
(7 a) ( | o =) 
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Es bleibt die Frage, wie man ®(u,o) effektiv berechnen kann: dazu lässt sich 
die Fehlerfunktion erf heran ziehen, deren Reihenentwicklung man ausnutzen 
kann. Diese ist eng verwandt mit g(0,1), denn es gilt 


x = _1)k 
erf(x) := a exp(-t’)dt = De 


k=0 


— &(u0,2) = (tree )) 


Satz 13.3: Zentraler Grenzwertsatz 
Sei ($S,%,p) ein Wahrscheinlichkeitsraum, und X, € Z(5) (mitne N) eine 
Folge von Zufallsvariablen auf S, so dass gilt 





(1) alle X„ sind quadratisch p-integrierbar (d.h. es ist [ X? dp < oo, nä- 
heres dazu findet sich im Kapitel 17 zur Integrationstheorie), 


(2) die X, sind identisch verteilt, d.h. für allem,ne Nundallea<beR 
gilt p(X'(la,6)) = P(Xz'(la,d]), 


(3) die X, sind unabhängig, d.h. für jem € N endlich viele Zufallsvariablen 
fi(l),...,i(m)} < N und Borel-Mengen B, € B(R) gilt 


(Axibn) = Tr») 
k=1 k=1 


Wir bezeichnen den (wegen (2) von n unabhängigen) Erwartungswert der 
X, mit u := E(X„) und deren Varianz mit o? := V(X,„). Ferner setzten wir 
voraus, dass o # 0 ist. Dann bezeichnen wir 


Sn := XıtXat+ + € 2Z($) 
Damit ist S„ ebenfalls eine Zufallsvariable mit Erwartungswert E(S,) = 


nu und Varianz V(S„) = no?. Schließlich bezeichnen wir die normalisierte 
Zufallsvariable von 5, mit Zn 





d.h. es ist E(Z„) = 0 und V(Z,) = 1. Dann konvergiert die Verteilungsfunk- 
tion von Z„ punktweise gegen die Verteilungsfunktion ®(0,1) der Standard- 
Normalverteilung. Explizit bedeutet das, dass für alex eR gilt: 


lim p(Zu<x) = 8(0,1,2) 


Nn—>XQ 


Noch expliziter ausgeschrieben bedeutet das, dass für zwei beliebige Zahlen 
a<beR stets die folgende Identität gilt 


. Sn — nu 1 a r 
< — < ae PEFNEBE 
Jin »(a< oyn <s) EN or ( 5) 
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Satz 13.4: von Berry-Esseen 

Wie oben sei X„ € Z(5) wieder eine Folge (n € N) identisch verteilter, un- 
abhängiger Zufallsvariabler auf dem Wahrscheinlichkeitsraum ($,%,p). Wir 
setzen wieder u := E(Xn), 0° := V(Xn) und fordern auch 0 < o < . 
Ferner sei diesmal aber auch das zentrale dritte Moment r der X„ endlich 


7 = Bllkn-u) = | 1Kute)- udn) < 
Dann lässt sich die Abweichung der Verteilung der Z,„ (wie oben) von der 


Standard-Normalverteilung für alle x €e R und allen € N abschätzen, durch 


T 





S 


[02 


Bemerkung 13.5: 

In der Anwendung ist es natürlich von Vorteil, wenn man die experimentellen 
Daten der Messungen X1, Xa,... nicht erst normalisieren muss. Der zentrale 
Grenzwertsatz lässt sich aber auch leicht so transformieren, dass keine Nor- 
malisierung vorkommt: Sei wieder 5. = Xı+X2a+:::+X„ und bezeichne 
A, := S„/n das arithmetische Mittel der n ersten X;. Dann erhalten für alle 
x e R wir die Näherungen: 


P(In < x) = © (nu, Vno, x) 
plAn<a) = B(u Ze) 


Für den Beweis dieser transformierten Abschätzungen benötigen wir ein paar 
Verschiebungseigenschaften der Gauss-Kurve, respektive ihrer Verteilungs- 
funktion. Sei @ > 0 beliebig, dann gilt 
Beh 
"9 (6 L; ) 
o 


d(u,0,2x) = Plau,ao,arx) = (0.1.2) 





al 


g(u,o,2) = a-glau,ao,ax) = 





Beweis: Die erste Gleichung rechnet man einfach nach: in g(au, ao, ax) 
tritt der Term (ax — au)?/2(ao)? auf, kürzt man a? so bleibt nur noch ein 
Vorfaktor 1/« übrig. Auch die zweite Gleichung rechnet man nach: 

au 


(01.2) _ ze —— = 0:9(1,0,2) 


Und damit folgt dann die Identität für ® aus der Kettenregel, leiten wir ab: 


9,8 (0.1.2) (9,®) (01,2%) 
o o 


Zn 
"9 (0. = ) = g(4,0,%) 











alm al 
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D.h. ®(0,1, (2 — u)/o) ist eine Stammfunktion von g(u,o,x). Das gilt aber 
auch für ®(u,o, x), also unterscheiden sich beide nur um eine Konstante. Da 
sie aber auch im Grenzwert x — —oo überein stimmen (beide konvergieren 
gegen 0), müssen sie also gleich sein. Mit demselben Argument zeigt man 
auch die zweite Identität für ®: 9,®(au,ao,ax) = a(d,®)(au,ao,ax) = 
a: glau,ao,ax) = g(u,o,x). Es bleibt die Näherungen zu beweisen, diese 
kann man nunmehr aber ebenfalls nachrechnen: 








p(m<2) = pfseS|Hls)<e} 
an, 
= »(2.< 7%) > (01,228) 
= P(nu, Yno,x) 


Zu guter Letzt betrachten wir p(A„ < x) = p(lMm/n < x) = p(Sn <ne) & 
©(nu, Yno,nx). Wählen wir a = n dann lässt sich dies wie behauptet schrei- 
ben, als p(A„ < x) = dlayu,alo/Yn),ax) = Dlu,o/Yn,x). 














Beispiel 13.6: 


(i) Das klassische Beispiel ist die vielfache Wiederholung immer ein und 
desselben Zufallsexperimentes. Wir starten also mit einem fixiertem 
Wahrscheinlichkeitsraum (5, %,p) und einer Zufallsvariablen X € Z(5). 
Wir setzten voraus, dass X quadratisch p-integrierbar ist und setzen 
u := E(X) und 0? :=V(X). Die vielfache Wiederholung von X wird 
modelliert durch den N-fachen Produktraum 


Ce 


D.h. wir betrachten Folgen (s;) € S mit Einträgen aus S, die die Er- 
gebnisse einer unendlich wiederholten Ziehung aus 5 (mit Zurücklegen) 
darstellen. Sei X, die Zufallsvariable X in der k-ten Ziehung 


X: S"ZR: (s) > X(s,) 


dann sind die X, wieder (wie immer in diesem Fall) identisch verteilt 
(sie haben dieselbe Verteilung wie X selbst) und sind unabhängig von- 
einander. Die 5, sind dann gegeben, durch 


SS: STR: (s)>Xla)+---+X(s,) 


so dass hier auch E($5„) = nu und V($5„) = no? besonders einsich- 
tig wird. Nun ist aber die Voraussetzung co # 0 wichtig! X muss eine 
Streuung der Ergebnisse haben, kommt (fast sicher) immer dasselbe 
Ergebnis heraus, so können sich die Ergebnisse nicht gegenseitig auf- 
heben. 
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—_ 


Ist dies aber gegeben, dann besagt der zentrale Grenzwertsatz bereits, 
dass die Verteilung der Z„ punktweise gegen ®(0,1) konvergiert. Das 
heißt für hinreichend große n kann man schätzen 


Sn — nu 1 e e 
< —— < N — _— 
less) = wre 


Bezeichnen wir wieder das arithmetische Mittel A, := S„/n, dann 
lautet die rücktransformierte Abschätzung, wie eben gezeigt wurde: 


1 b t- 2 
Pla<An<b) = -- = / oo (-n! = )« 


Ein Spezialfall des generellen Problems (i) ist die Binomialverteilung: 
wir betrachten den n-maligen Münzwurf B(n,A) wobei 0O<A<1 sein 
muss. Mit w:{0,1}"—0...n bezeichnen wir wieder die Zufallsvaria- 
ble der Zählung der 1 in der Folge w(s)=#{iel...n|s;=1}. Wie 
wir wissen ist dann u = E(w) = n\ und 0? = V(w) =nA(1- X). Man 
beachte, dass u und 0? hier bereits Erwartungswert und Varianz des 
n-fachen Münzwurfs (und damit das n-fache des einfachen Münzwurfs) 
sind. Es hat sich etabliert zu sagen, dass sich die Binomialverteilung 
mit genügender Genauigkeit durch die Normalverteilung approximie- 
ren lässt, wenn 0? > 9 ist. Dann gilt für k € 0...n die Näherung 


& Ne u 1 (k- nA)? 
De Een (5 = 5) 





Will man einen ganzen Abschnitt 0 <a < b<n möglicher Anzahlen 
von len auswerten, so ist die Approximation besser, wenn man eine 
sogenannte Stetigkeitskorrektur durchführt, soll heißen das betrachtete 
Intervall um jeweils 0.5 auf beiden Seiten erweitert 


< 8(1,0,b+0.5) 
pla<w<b) = ©(u,o,b+0.5) - D(u,o,a— 0.5) 


= 
€ 
N 





Die obige Näherungsformel für p(w = k) wird auch Satz von Moivre- 
Laplace genannt, nach dem das Verhältnis der beiden Terme im Grenz- 
wert n — oo gegen 1 geht. In den Beweis dieses Satzes gehen die 
Stirling’sche Formel mehrfach und auch die Reihenentwicklung von 
In(x +1) ein. Da k = u + zo betrachtet wird, ist die Approximati- 
on umso besser, je näher k an u liegt. 


Allgemeiner kann man den Satz von Berry-Esseen verwenden, für den 
man aber das zentrale, absolute dritte Moment der Binomialverteilung 
benötigt: dieses ist gegeben, durch r(A) = o?(A)-(1-aA+ aA?) wobei 
o?(A) = nA(1- A) wieder die Varianz und a = 4 — 16r(0.5)/n ist. 
Da sowohl o?(A) also auch 1— aA + aA? ihr Maximum bei A = 1/2 
annehmen, gilt stets r(A) < r(0.5) oder genauer 


n 


TO) = QA)-(l-aA+tal2) < = (1-5) = 7(0.5) 
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Um diese Abschätzung anwenden zu können benötigt man also noch 
das zentrale, absolute dritte Moment (0.5) der Binomialverteilung 
für A = 0.5. Und dieses lässt sich für n = 2m (obere Formel) bzw. für 
n = 2m + 1 (untere Formel) berechnen, durch: 


1 n 1 
a mt m(," ,) < Ew 


0 el) 


In der Schranke von Berry-Esseen kann man r(A) < r(0.5) < n!?/5 
abschätzen. Alternativ kann man auch r(A)/o(A)? =1-aA+al? < 
1-.a/4=4r(0.5)/n < (4/5): Yn abschätzen und erhält so schließlich 


3 7(0,5) 12 


BAD ES Tor m 2500 





(ii) Für kleine Parameterwerte X ist die Poissonverteilung P(X) = (N, pı) 
stark asymmetrisch, für größere Werte jedoch - sagen wir ab A > 30 - 
ähnelt die Poisson-Verteilung zunehmend einer Normalverteilung vom 
Mittelwert u = A und mit der Varianz o? = X. In diesem Fall kön- 
nen wir also die folgenden Approximationen (man beachte wieder die 
Stetigkeitskorrektur) verwenden (wobei k € N beliebig ist): 


g(A, VA, k) 
D(A,VA,k + 0.5) 


Q 


pılid = k) 
px(id<k) 


Q 


Da für die Poisson-Verteilung auch das dritte zentrale Moment existiert 
(es ist auch r = A) kann man den Satz von Berry-Esseen wieder zur 
Abschätzung des Fehlers heran ziehen. Dabei wird ebenfalls deutlich 
(für n = 1), dass sich P(N, px), mit wachsendem A, N (A, VA) nähert: 





A 1 
Zn <k)- ®(0,1,k)| < = 
MASK OL] S zamm = zog 


Bemerkung 13.7: 

Sei (X,2,p) ein Wahrscheinlichkeitsraum, dann nennen wir eine Zufallsva- 
riable X € Z($) normalverteilt falls es u € Rund o > 0 gibt, so dass die 
Verteilungsfunktion von X gleich der Verteilungsfunkton von Y(u,o) ist 


Fx = ©(u,o) 
Sind nun X und X’ e Z(5) zwei unabhängige, normalverteilte Zufallsva- 
riablen mit Fx = Ö(u,o) und Fxr = Ö(w,c’) dann ist auch die Sum- 


me X + Y der beiden normalverteilt [für einen Beweis, siehe www.vwi.tu- 
dresden.de/ "treiber /statistik2/statistik_download/exkursel5.pdf] mit 
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x--Verteilung: 

Wie wir gerade gesehen haben, ist die Summe X1 +::-+ X, normalverteil- 
ter Zufallsvariablen X} bis X, € Z(S5) wieder normalverteilt. Für Hypothe- 
sentests benötigt man allerdings nicht die Summe, sondern die Summe der 
Quadrate X? +: -- + X2. Wir nehmen zunächst an, alle X; seien standard- 
normalverteilt, d.h. es sei stets X; © N (0,1). Die Verteilung zu X?+:::+X2 
hängt dann nur von der Zahl n der beteiligten Zufallsvariablen ab. Wir wol- 
len diese sogenannte x?-Verteilung nun im folgenden studieren: 


Bemerkung 13.8: 
Zunächst benötigen wir die Gamma-Funktion, welche eine Verallgemeine- 
rung der Fakultät darstellt: Wir definieren T:0— R* durch: 


lei / tert 
0 


Dann lässt sich zeigen, dass T eine (nicht eindeutig bestimmte) Lösung der 
folgenden Funktionalgleichung (für alle x > 0) ist: 


T1) =1 und T(e+1)=x:[(«) 


Insbesondere folgt daraus T’(n+1) = n! für allen € N. Da wir T' im folgenden 
aber nur auf halbzahligen Werten berechnen müssen, genügen uns eigentlich 
bereits die expliziten Formeln (mit 1<neN): 


Definition 13.9: 
Seinunl>neN vorgelegt, dann definieren wir die folgende Dichtefunktion 


mn: R'>R:x» 


Oftmals wird c„ (stetig) erweitert, auf cn : R — R indem man für x <0 
definiert c„ (x) := 0. Damit erhält man dann ein Wahrscheinlichkeitsmaß auf 
R* durch (wobei A C R* Borel-meßbar) 


(A) == Joa 


Die Verteilungsfunktion dieses Wahrscheinlichkeitsmaßes bezeichnen wir (et- 
was informal, aber sie ist ja auch fast dasselbe) ebenfalls mit (wobei x > 0) 


a oma 
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Der zugehörige Wahrscheinlichkeitsraum wird als Raum der x?-Verteilung 
mit n Freiheitsgraden bezeichnet, wir schreiben diesen, als 


C(n) := (RF,B(R)NR*,xn) 


Satz 13.10: 


(i) Bezeichnen wir die Zufallsvariable id :RF —> Rt : x > x der Identi- 
tät, dann hat diese den folgenden Erwartungswert, bzw. die folgende 
Varianz über der x?-Verteilung C(n) 


Eid) = n 
VYıdıh ="2n 


Die erzeugende Funktion der Momente lässt sich ebenfalls berechnen: 
Mal) = (1-2)? 


(i) Für n = 1 lässt sich die Verteilungsfunktion x„ mit Hilfe der (im An- 
schluss an die Normalverteilung eingeführten) erf-Funktion berechnen: 


x => _)k ® 
xıle) = ef (3) = > Eu zi ey, 


Für gerade n mit n > 2 setzen wir m := n/2 -— 1, dann ergibt sich die 
folgende Formel für die Verteilungsfunktion der x?-Verteilung: 





Bi 


Xn(z) = le) 


Und für ungerade n mit n > 3 setzen wir m := (n — 3)/2, dann ergibt 
sich eine etwas andere Formel für die Verteilungsfunktion 


Xn(z) = af (3) _e > vi Si 


(ii) Sei ($,%,p) ein beliebiger Wahrscheinlichkeitsraum und seien Z(1), 
Z(2) bis Z(n) € Z(5) unabhängige Zufallsvariablen auf S. Ferner seien 
alle Z(i) standard-normal-verteilt, d.h. für alleöie1...n gelte Fz.;), = 
&(0,1). Dann ist Q(n) := Z(1)? + Z(2)? +--- + Z(n)? € Z($) (also 
die Summe der Quadrate der Z(i)) gerade x?-verteilt, d.h. es gilt 


(iv) Sind1<m,neN, dann sind die unabhängigen Kombinationen der 
x-Verteilungen C(m) und C(n) (aufgrund von (iii) offenbar) wieder 
eine x--Verteilung, nämlich C(m + n) 


C(m)®C(n) = C(m+n) 
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Bemerkung 13.11: 
Es seien X (1), X(2),...,X(n) € Z($) unabhängige, normal-verteilte Zu- 
fallsvariablen auf dem Wahrscheinlichkeitsraum (S,%,p) mit den Erwar- 
tungswerten u(i) = E(X(i)) € R und Varianzen o(i)? = V(X(i)) £ 0, 
d.h. es sei jeweils 

Fa = uli),o) 


Dann betrachten wir zuerst die Zufallsvariable, die den Durchschnitt der 
X(t) beschreibt. Diese ist offenbar gegeben, durch: 


An) SE YxQ) 
i=1 


Aufgrund der Linearität des Erwartungswertes und der Additivität der Va- 
rianz (auf zumindest paarweise unabhängignen Zufallsvariablen) können wir 
eben diese Größen auch für A(n) berechnen: 


B(An)) = ZILERG) = Yu) 
i=1 ; 


v(An)) = ZIVA) = ZDoW? 
i=1 


n? 4 


Insgesamt ist A(n) damit wieder normal-verteilt, mit Mittelwert u = E(A(n)) 
und Standardabweichung o = /V(A(n)). Wir wollen die X(i) nun aber 
standardisierten, d.h. so transformieren, dass die neue Zufallsvariable Z(i) 
standard-normalverteilt ist. Dies geschieht unter: 


Damit sind die Z(i) weiterhin unabhängig und nunmehr auch standard- 
normal-verteilt, Fz.) = ®(0,1) und es besteht der Zusammenhang 


PX) <a) = „(zu ER) E 0 (01.2520) 


pla< Zi) <b) = placli) + li) <X(i) <acli) + u(i)) 








für beliebige a, bund x e R. Aufgrund des obigen Satzes wissen wir nun aber 
auch, dass Q(n) := Z(1)?+---+Z(n)? x?-verteilt ist: d.h. es gilt Fg(n) = Xn» 
oder explizit gilt für alle x > 0: 


E) : i)(s” <x = Xnl&) = 4 
‚(\ es | zu? < N) xnle) = | nat 
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Satz 13.12: Pearson’s Theorem: 

Sei (S,%,p) ein Wahrscheinlichkeitsraum und (7,g) ein Laplace-Raum, mit 
T={tı,...,tm }. Sei ferner (X) eine Folge unabhängiger Zufallsvariablen 
X.:$9— T, so dass für alleke N und alle jel...m gilt: 


PK=b) = 4 
Zu s € $ definieren wir N;„(s) = #{kel...n|X%(s) =t;}. Dann ist 


Njn : $ — R eine reelle Zufallsvariable und wir definieren eine weitere 
Zufallsvariable A„: SS — R durch 





u ; Ss) — Ndg; ? 
Aula) Se > 4) 


3-1 


Dann konvergiert (A„) in Verteilung gegen die Chi-Quadrat-Verteilung mit 
m — 1 Freiheitsgraden. D.h. ist F„(x) = p[An < x) die Verteilungsfunktion 
von A, dann konvergiert diese punktweise gegen xm-ı: Für allex eR gilt: 


im.F,(&) =. Xnsıle) 


Nn—XQ 


Äquivalent dazu: Für allea <beR gilt 


lim p(a ze b) = Xm-ı(b) = Xm-ı(a) 


Nn—>XQ 


Ein Freiheitsgrad verschwindet, denn kennt man die Häufigkeit des Vorkom- 
mens von to bis t„, dann ist auch die Häufigkeit von tı klar. Einen Beweis 
dieses Satzes findet man z.B. in den Open Courseware Notes des MIT zur 
Statistik, Section 10. Der Nutzen des Satzes besteht darin, dass die Abwei- 
chung der Verteilungsfunktion F}, von xm-ı zu einem Test umwandeln, ob die 
Wahrscheinlichkeiten p(X, = t;) wirklich q; betragen: Ist x = (x1,...,n.) € 
T" eine Stichprobe, dann bezeichnen wir mitn;:=#{kel...n|x,=t;} 
die absolute Häufigkeit von t; in x. Damit berechnen wir dann 


wi y men ; 


Se 
z Ng; 


3-1 


Für n — oo wird die relative Häufigkeit h; = n;/n gegen die tatsächliche 
Wahrscheinlichkeit p(X = t;) konvergieren. Also sollte n; = ng; sein. Und 
sind die q; die richtigen Wahrscheinlichkeiten, dann kontrolliert A die em- 
pirische Verteilungsfunktion, die punktweise gegen xm-ı konvergiert. Wenn 
die Abweichung zu groß ist, dann sind die q; also die falschen Wahrschein- 
lichkeiten. Die genaue Ausführung des Tests wird in Kapitel 12 besprochen. 
Hat man hingegen keine Vermutung über die genaue Verteilung q auf T, 
sondern nur über ein Modell (T,qx) und möchte den Parameter A schätzen, 
so hilft der folgende Satz: 
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Satz 13.13: 

Sei wieder (5,3, p) ein Wahrscheinlichkeitsraum, 7 = {tı,...,tm } eine end- 
liche Menge und A < R”. Zu jedem A € A sei (T,q,) ein Laplace-Raum (also 
a1 € Am). Und zu gegebenem jE€1...m betrachten wir 


94 28 [0,1 2A:%(G;) 
Sei weiterhin X: $ — T eine Zufallsvariable und (z,) < T eine Folge von 


Ziehungen von X. Bezeichne hn € Am den MLE-Schätzer der Häufigkeits- 
verteilung, der sich aus der Stichprobe (z1,...,2%n) ergibt, d.h. 


1 
Ron S= „Fikel.nla=t} 
An = (Kan, ...; Ban) 
h '.:= lmh,n 
N—XQO 


Damit konvergiert (h„) gegen h, die tatsächliche Wahrscheinlichkeitsvertei- 
lung von X auf T. Seide A so dass q9 = h. Wir setzen voraus, dass 


(1) d ist ein innerer Punkt von A 

(2) Für alle je 1...m ist (0) #0. 

(3) Für alle je 1...m ist : A — [0,1] C*-differenzierbar. 

(4) Die (r x m)-Jacobi-Matrix (Ö,,g;) hat bei A= d den vollen Rang r. 


Wie in (13.12) definieren wir N;„(s) = #{kel...n|X(s,.) =t;} für 
s= (s,) € SN und damit die Zufallsvariable A, auf (8,2, p)®" 





Anls) := > (N;n(s) = nhjn)” 


= nhjn 


Dann konvergiert die Verteilungsfunktion F„ von A„ wieder punktweise ge- 
gen die Chi-Quadrat-Verteilung zu f =m- r- 1 Freiheitsgraden: 


lim pPPN(An<t) = xr(t) 


NO 
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Kapitel 14 


Konfidenzintervalle 


Im folgenden möchten wir uns einem Problem zuwenden, das nur auf den 
ersten Blick einfach aussieht: Nehmen wir an, in einer Urne befinden sich ins- 
gesamt 100 Kugeln, der Farben schwarz und weiß. Wir ziehen n = 25 mal mit 
Zurücklegen (d.h. ziehen, Farbe notieren, Kugel zurücklegen und mischen). 
Dabei sind k = 10 der gezogenen Kugeln schwarz. Wie viele schwarze Ku- 
geln werden wohl in der Urne sein? Naiv würde man rechnen: wir haben 
A = k/n = 0.4 = 40% schwarze Kugeln gezogen, also sind wohl 100 - A = 40 
schwarze Kugeln in der Urne. Wir wissen bereits, dass dieses A der Maximum 
Likelihood-Schätzer des Problems ist - d.h. unter allen relativen Häufigkei- 
ten A € [0,1] hat A = 0.4 die höchste Wahrscheinlichkeit das Ergebnis 10 
schwarze Kugeln zu liefern: 
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In diesem Schaubild ist x die tatsächliche (unbekannte) realtive Häufigkeit 
schwarzer Kugeln in der Urne und auf der p-Achse haben wir die Wahrschein- 
lichkeit für k = 10 schwarzer unter n = 25 gezogener Kugeln aufgetragen. 
Wenn wir also erfahren, dass nur 35 Kugeln schwarz sind, dann überrascht 
uns das wenig - wir haben ja zufällig gezogen und auch dies liefert häufig 
genug 10 schwarze Kugeln. Wenn uns aber gesagt wird, das es seien nur 
5 Schwarze, dann wäre das doch eine sehr seltene Ziehung gewesen. Oder 
gar 99 weiße Kugeln? Haben wir 10 Mal genau diese eine schwarze Kugel 
erwischt? 
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Letzteres ist zwar theoretisch möglich, aber sehr sehr fragwürdig. Doch das 
einzige, was wir wirklich sicher wissen, ist, dass die Zahl schwarzer Kugeln 
zwischen 1 und 99 liegen muss. Also: wie viele schwarze Kugeln sollen wir 
noch als glaubwürdig zulassen und ab wie vielen Kugeln sollen wir die Zahl 
als zu unwahrscheinlich verwerfen? 

Formulieren wir das Problem etwas präziser: vorgelegt sei eine erlaubte 
Irrtumswahrscheinlichkeit @ € [0, 1]. In welchem Intervall Co(n,k,a) < [0,1] 
liegt die tatsächliche Häufigkeit x der schwarzen Kugeln mit einer Sicherheit 
von 1- a. Dazu müssen wir den Begriff Sicherheit noch etwas durchdenken: 
Ein Irrtum liegt dann vor, wenn x £ Co(n, k, «) ist. Führen wir den Versuch 
(n = 25 Kugeln mit Zurücklegen ziehen, die Zahl k der gezogenen schwarzen 
Kugeln notieren und das Konfidenzintervall Co(n, k,@) berechnen) immer 
wieder durch, dann kommt das jeweilige k €0...n mit der Häufigkeit vor 


pie) = nah) = („art 


Ist x € Co(n,k,«a) für dieses k erfüllt, dann hat unser Konfidenzintervall 
richtig gelegen und es ergibt sich kein Beitrag zur Irrtumswahrscheinlichkeit. 
Wir müssen also p; über all die k summieren, für die x £ Co(n,k,«) ist - 
die Irrtumswahrscheinlichkeit kann also berechnet werden, zu 


, 2”  f pr(x) für x & Co(n,k,a) 
u > 0 für x € Co(n, k, a) 
Unsere Bedingung, die die Konfidenzintervalle Co(n,k,«) erfüllen müssen 
ist also ö(z,n) < a. Eine Gleichheit ist nicht zu erwarten, da i(x,n) ja nur 
in diskreten Schritten vorkommt. Die Antwort Co(n,k,a) = [0,1] würde 
die Bedingung natürlich erfüllen, ist aber auch nicht wirklich hilfreich. Wir 
wollen die Konfidenzintervalle Co(n, k,«) so konstruieren, dass i(xz,n) = « 
tatsächlich gerade noch vorkommen kann. 

Eine richtig befriedigende Antwort auf diese Frage gibt es leider nicht. 
Man kann ein exaktes Intervall angeben, das aber nur näherungsweise zu 
berechnen ist und man kann exakt zu berechnende Intervalle angeben, die 
aber nur näherungsweise treffen. Einen Tod müssen wir sterben und tasten 
uns daher nur langsam an eine Lösung heran. Zuletzt geben wir noch eine 
allgemeinere Formulierung des Problems an, jedoch ohne einen echten Lö- 
sungsalgorithmus zu präsentieren. 


1. Versuch: Umkehrung der Wahrscheinlichkeitsfunktion 
Betrachtet man die Irrtumswahrscheinlichkeit i(x,n) ist klar, dass wir die 
Wahrscheinlichkeiten pr (x) = px(w = k) für das Eintreffen von k Erfolgen 
bei n Versuchen unter der unbekannten Erfolgswahrscheinlichkeit & kontrol- 
lieren müssen - siehe auch Kapitel 8 für die Frage, warum dies die richtige 
Wahrscheinlichkeit ist. Die Idee ist krude, aber effektiv: wir wissen nicht wo 
x liegt, aber wenn wir stets die Größe von pr(x) kontrollieren, dann kon- 
trollieren wir auch die Irrtumswahrscheinlichkeit i(x, n). Dies leisten nun die 
folgenden beiden Sätze. Der erste ist eine Untersuchung der Eigenschaften 
von px(x) und mündet in den zweiten Satz - einem ersten Verfahren zur 
Berechnung von Konfidenzintervallen. 
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Satz 14.1: 
Sil<neMNundke0...n fixiert und bezeichne A := k/n. Dann betrach- 
ten wir das folgende Polynom n-ten Grades mit ganzzahligen Koeffizienten 


pa) = („)et-ort © Zi 


Für k = 0 hat pr die Nullstelle x = 1 und ist auf [0, 1] streng monoton 
fallend von (0,1) nach (0,0). 





Für k =n hat p;. die Nullstelle x = 0 und ist auf [0, 1] streng monoton 
steigend von (0,0) nach (1,1). 


Für0 <k<n hat px die Nullstellen x = 0 und x =1, ist über [0, A] 
streng monoton steigend, erreicht bei x = X einen Hochpunkt und ist 
über [A, 1] streng monoton fallend. Dabei ist 


PA) = = kk(n — kjn=k 


nr? 


Ist k > 1 und bezeichnet q,(x) das nachfolgende Polynom für n+1, 
dann gelten die folgenden beiden Rekursionsformeln: 








1 
A “ age 
k 1-x 
Pr-1(®) Bere n "Pr (®) 
n+1l 
a) = 8 mla) 


Insbesondere schneidet p;_ı den Nachfolger q; in dessen Hochpunkt: 


Ber, k 
a re a Se me 








Beweis: 

Im Fall k = 0 ist po(x) = (1- x)” und erfüllt damit offensichtlich die oben 
genannten Eigenschaften. Desgleichen für k = n, hierbei ist p„(x) = x”. Sei 
also 1<k<n und = k/n. Die Ableitung von p;(x) ergibt sich nach der 
Produktregel zu 


Pre) = “ kaht(1 ar _ & (n- ar - ar! 
= o RA) (ne he) 
_ es gr] ar RU ng) 
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Auf [0, 1] ist sowohl x*”! also auch (1- z)?"F-1 stets positiv, das Vorzeichen 
von p},(x) wird also durch den Term (k—nx) bestimmt. Und für <k/n=\ 
ist dieses positiv, für x > k/n = X ist dieses negativ. Also ist pr für 0 < 
x < A streng monoton steigend und für A < x < 1 streng monoton fallend. 
Insbesondere hat px, bei x = X einen Hochpunkt. In diesem gilt: 


k n—k k n—k 
n k n—k n\k(n—k 
oe a Ele u 
k/\n n k nr 
Die Rekursionsformeln lassen sich einfach nachrechnen und folgen aus den 
Eigenschaften der jeweiligen Binomialkoeffizienten: 





Pr-ı(2) = (; ö ) ah] - gyrktl 


- al) amt 
a = (*, tur 
= „IS. ()eu-2r*a-2 




















n+1-k 
n-+1l 
n+1l n—-k+l zT 
= Re. 2): = I Pr-ıl®) 
_ n+1l ee 
z RE LT Pr-1\T 














Die folgende Abbildung zeigt das Schaubild von pa3(x). Man erkennt den 
Hochpunkt bei x = 0.3 und die strenge Monotonie links und rechts davon: 
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Ist die Irrttumswahrscheinlichkeit & = 25% vorgelegt, dann sieht man einen 
Bereich, in dem das Polynom die Wahrscheinlichkeit &/n = 2.5% übersteigt. 
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Diesen Bereich nehmen wir als Konfidenzintervall Co(n,k,«a) bei k = 3 Er- 
folgen unter n = 10 Versuchen. Dass dieser Ansatz Erfolg hat, formuliert der 
folgende Satz. 


Satz 14.2: Erster Versuch 
Seien wieder 1<ne N und p.(x) € Z[x] wie in obigem Satz definiert. Wir 
nehmen ferner an, a € [0, 1] ist fein genug, soll heißen für allek el...n gilt 


En x 
Bee 


Schließlich bezeichnen wir für beliebiges k € 0...n das Intervall, über dem 
p, einen Wert von a&/n oder mehr annimmt, mit Co(n,k,«) d.h. 





Olmsk:ä) s= » (1) 0W, 1 . [ze[o.1] | = < pxle) } 


e Für k = 0 bzw. k = n lässt sich das Intervall Co(n,k,«a) explizit 
angeben 


Co (n, 0, a) == [0, bo| 

Con, n, a) = [an, 1 
wobei bo = 1- (a/n)'/" und a, = (a/n)'/” sind. Ist hingegen 0 < 
k < n, dann gibt es ein eindeutig bestimmtes a, € [O,k/n] so dass 


Pr(ax) = a/n und ein eindeutig bestimmtes b, € [k/n,1] so dass auch 
px (br) = a/n ist. Und für diese gilt dann 


Co(n, k, a) 7 [ax b;| 


e Die linken und rechten Grenzen der eben definierten Intervalle bilden 
aufsteigende Ketten, d.h. es gelten 


= w<um<m<.. <m = (a/n)!" 








1-(afn) " bb <br << <..<i=1 


Ist nun 0 < x < 1 beliebig vorgelegt, dann bezeichnen wir die Menge 
der k mit x € Co(n.k, a) mit Ko(z,n, a), d.h. wir setzen Ko(x,n, a) := 
Ike0...n|x € Co(n,k,a) }. Diese ist ein Intervall in Z, d.h. es gibt 
zwei Zahlen O<as<b<nmit 


Kıla;n,a) = au:b 
e Wir haben also zu jedem k € 0... n ein Konfidenzintervall Co(n, k,a) < 
[0, 1] definiert. Tatsächlich ist die Irrtumswahrscheinlichkeit, dass x bei 


k Erfolgen nicht in Co(n, k, a) liegt höchstens a, d.h. 


Umn) = > b(z,n,k) < «@ 
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Beweis: 
Zunächst ist Co(n, k,«) = [ar, bx] ein wohldefiniertes Intervall, wobei pr (ax) = 
a/n und p;(b;) = a/n mit a, < k/n < b, sind. Dies alles ist klar, aufgrund 
der Eigenschaften von pr; (x) aus dem vorangegangenem Satz. 

Wegen ao = 0 ist ao < aı trivial. Und für k > 1 zeigen wir nun ebenso 
ar_1 < ar. Da pr_ı(z) ebenfalls bis (k — 1)/n streng monoton steigt, genügt 
es pPr-ılar-ı) < Pr-ı(ar) zu zeigen. Mit der Rekursionsformel gilt aber 


k 1-.a; 
n—k+l Ar 





Pr-ı(ar) Pr (ax) 

Wegen p;(a;) = a/n = pr-ılar-ı) > 0 lässt sich dies aus der Ungleichung 
kürzen, so dass wir nur noch 1< k/(n—- k+1)- (1- a,)/a, zeigen müssen. 
Dies lässt sich weiter äquivalent umformen, zu (n—k+1)ar < k(1- ax) 
und weiter zu ar < k/(n+1). Dies fogt aber aus der Annahme, dass a fein 
genug ist, wie folgende Argumentation zeigt: 

Nach Voraussetzung ist pr (ar) = a/n < pr(k/(n+1)). Wegen k/(n+1) < 
k/n liegt a, also noch im Bereich der streng steigenden Monotonie von pr 
und damit folgt tatsächlich a, < k/(n + 1). Insgesamt bilden die a, eine 
aufsteigende Kette. 

Genauso findet man b;_ı < bx, diese liegen im streng monoton fal- 
lendem Bereich von pr-ı(x), so dass diese Ungleichung äquivalent ist, zu 
pr -ı(bk-1) 2 Pr-ı(d;). Mit der Rekursionsformel wird daraus 


k 1- br 
n—k+l br 





Pr-1(br) Pr(br) 


und kürzt man wieder p;(b,) = a/n = pr-ı(b;-ı) > 0 so kann man dies 
wieder äquivalent umformen, zu bk > k/(n +1). Dies ist aber trivial, wegen 
b, > k/n > k/(n-+1). Also bilden die b, ebenfalls eine aufsteigende Kette. 

Damit ist Ko(n, k, «) tatsächlich ein Intervall in den ganzen Zahlen, denn 
es ist ein Schnitt zweier solcher Intervalle: 


Koln,k,a) = {ke0...n|a,<z}Nn{ke0O...n|x<b;} 


Wir zeigen nun noch a; < bx-ı für beliebiges k € 1...n. Dazu zeigen wir 
Pr _ı(ar) 2 Pr-ı(bx-ı). Wir verwenden wieder die Rekursionsformel 


k 1-.a; 
n—k+l Ar 





Pr-ı(ar) - Pr (ax) 

Es lässt sich wieder pr_1(bk-ı) = a/npx (ax) > 0 kürzen, so dass die Unglei- 
chung äquivalent ist, zu k/(n—-k+1):(1-ax)/ax > 1. Dies wurde aber oben 
schon bewiesen. Wäre also a; > b;_ı, dann müsste (aufgrund der streng fal- 
lenden Monotonie von px_ı hinter bk_1) auch pk-ı(ar) < pr-ı(bk-ı) sein - im 
Widerspruch zu dem was gerade gezeigt wurde. Anschaulich gesprochen be- 
deutet a, < bk-ı aber, dass sich die Intervalle Co(n, k—1,«a) und Co(n, k, «) 
überlappen. D.h. die Intervalle überdecken [0,1] und damit muss x in min- 
destens einem dieser Intervalle liegen - insbesondere ist Ko(n,k - 1,a) #9. 
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Damit können wir dann aber schließlich die Irrtumswahrscheinlichkeit ab- 
schätzen: Ist x £ Co(n,k,«a) dann ist nach Definition p,(z) < a/n. Und da 
es höchstens n Intervalle Co(n, k,«) gibt, in denen x nicht liegt, können wir 
weiterhin abschätzen 


ln) = > me) <n <= a 
ıECo(n,k,a) 














2. Versuch: Die exakte Lösung 

Dieser Ansatz liefert zwar verlässliche Intervalle, doch sind diese viel grö- 
ßer als nötig, da wir die Zahl der Irrtümer x £ Co(n,k,«a) nicht betrachtet 
haben. Zudem lassen sich die Konfidenzintervalle nicht leicht berechnen, da 
dazu polynomiale Gleichungen hohen Grades gelöst werden müssen. Die na- 
heliegende Idee ist es nicht die Einzelwahrscheinlichkeiten zu kontrollieren, 
sondern gleich die kumulierte Binomialverteilung B(x,n,k) selbst zurecht 
zu schneiden. Die konkrete Berechnung der Grenzen der Konfidenzintervalle 
kann mit Hilfe der inverse Betaverteilung erfolgen: 


Satz 14.3: Clopper-Pearson 

Seil<neN und eine zulässige Irrtumswahrscheinlichkeit @ € [0,1] vor- 
gelegt. Zu k € O...n definieren wir das Konfidenzintervall Co(n,k,a) := 
[ar, br] wobei a, die Eigenschaft hat: ao := 0 und für k > 0 


B(ar,n,k-1l) = 1- 


w|® 


Die obere Grenze bj, wird definiert durch die Eigenschaft b„ := 1 bzw. für 
k <n durch die Gleichung 


B (br, n, k) — 


D|8 


Dann sind a, und 5, wohldefiniert und für die Irrtumswahrscheinlichkeit der 
Konfidenzintervalle Co(n, k, a) gilt für alle x € [0,1] 


EN) = > biz,n,k) <& 


Bemerkung 14.4: 

In obigem Satz bezeichnet - wie immer - B(x,n,k) die kumulierten Wahr- 
scheinlichkeiten der Binomialverteilung zur Erfolgswahrscheinlichkeit x. Man 
beachte, dass damit B(x,n,k —- 1) = px(w < k) die Wahrscheinlichkeit ist, 
echt weniger als k Erfolge zu beobachten. Analog ist B(xz,n,k) = pı(w < k) 
die Wahrscheinlichkeit mindestens k Erfolge zu erzielen. Nach Satz (8.2.(vi)) 
lassen sich diese aber mit Hilfe der Beta-Verteilung ausdrücken 


k 
Binsek) = Y bin, z,i) = ßll-x,n-k,k+1) 
i=0 
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Diese Verteilung lässt sich nun aber (aufgrund der Stetigkeit und strengen 
Antitonie) invertieren. Die inverse Beta-Verteilung, also die Lösung x zu 
y= ß(x,a,b) bezeichnen wir mit x = B”!(y,a,b). Dann gilt fürO<k<n: 


1-97! (1-5,n-k+1,k) 


ag (Sn-kk+1) 


ak = 


bk = 


Bemerkung 14.5: 

Die folgende Tabelle zeigt den Fortschritt von Clopper-Pearson gegenüber 
unserem ersten Versuch: Wir berechnen jeweils die Konfidenzintervalle bei 
n = 10 Versuchen bei einer zulässigen Irrtumswahrscheinlichkeit von « = 
10%. Man sieht, dass die Intervalle viel kleiner sind 





k | erster Versuch | Clopper-Pearson 
0 | [0.000, 0.369] [0.000, 0.259] 
1 | [0.001, 0.499] [0.005, 0.394] 
2 | [0.016, 0.604] [0.037, 0.507] 
3 | [0.049, 0.694] [0.087, 0.607] 
4 | [0.097, 0.774] [0.150, 0.696] 
5 | [0.156, 0.844] [0.222, 0.778] 
6 | [0.226, 0.903] [0.304, 0.850] 
7 | [0.306, 0.951] [0.393, 0.913] 
8 | [0.396, 0.984] [0.493, 0.963] 
9 | [0.501, 0.999] [0.606, 0.995] 
10 | [0.631, 1.000] [0.741, 1.000] 








Beweis: 

Zunächst einmal ist klar, dass B(xz,n, k) = po(2) + ... + px (x) stetig in x ist. 
Ebenso ist 5(0,n,0) = 1 und b(0,n,k) = 0 für k > 0, so dass B(0,n,k) =1 
für alle O <k<.n ist. Analog ist b(1,n,n) = 1 und b(1,n,k) =0 fürk<n, 
so dass B(1,n,k) = 0 für alle O <k <n ist. D.h. B(x,n,k) fällt von (0,1) 
stetig auf (1,0). Die folgende Abbildung zeigt B(rx, 10,3) 
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Die Antitonie von B(x,n,k) ist anschaulich klar (wenn die Erfolgswahr- 
scheinlichkeit steigt, sinkt die Wahrscheinlichkeit nur k Erfolge zu haben), 
folgt aber auch sofort aus der expliziten Darstellung in (8.2.(vi)) als Integral. 
Damit lässt sich die Gleichung B(x,n,k - 1) = 1- «a/2 für beliebiges « und 
alle k > 0 eindeutig lösen, so dass a, wohldefiniert ist. Ebenso lässt sich die 
Gleichung B(x,n,k) = a/2 für beliebiges @ und alle k < n eindeutig lösen, 
so dass b, wohldefiniert ist. Und wegen a < 1 ist a/2 < 1- «a/2, so dass 
ar < br ist. Insgesamt ist Co(n,k,«a) für alle k € O...n wohldefiniert. 

Wir haben nun also zu jedem k € O...n das Konfidenzintervall C, := 
Co(n, k,a) = [ax, b;] gegeben. Seien nun z<j <n, dann ist B(x,n,j) = 
B(x,n,i)+b(x,n,i+1)+::-+b(x,n,j) > B(x,n, i). Insbesondere ist damit 
B(b;,n,j) 2 B(b;,n,i) = «/2. Also hat die Gleichung B(z,n,j) = a/2 noch 
keine Lösung im Intervall [0, b;] - die Lösung liegt erst rechts von b; und das 
bedeutet b; < b,;. Insgesamt haben wir also bo <bı <---<b„ =1 und mit 
demselben Argument sieht man auch O= ap <aı << an. 

Sei nun x € [0,1] die tatsächliche, unbekannte Erfolgswahrscheinlich- 
keit des Versuches beliebig vorgelegt. Wir zeigen nun, dass die Irrtumswahr- 
scheinlichkeit i(z,n) < a ist. Nach Konstruktion ist diese gegeben, als Sum- 
me über alle b(x,n, k) wobei x & C, = [a;, b;.] ist. Nun ist x £ [a;, b;,] aber 
äquivalent zu x < a; oder b., < x, also 


as). = > DEE.R.) = > b(xz,n,k) + > b(x,n, k) 


ıEC; C<Ar x>by, 


Nun bilden die a, und b; aber wie gesehen aufsteigende Ketten. Die Be- 
dingung x < a; ist also erst ab einem gewissen Index £ gegeben, bzw. die 
Bedingung x > b, kann nur bis zu einem gewissen Index s gelten. Es ist 


ia) > bie,n, k)+ > bia,n, k) = 1-B(xz,n,t-1)+B(«,n, s) 
k=t k=0 


Dabei ist t=min{ke0...n|e<a,} unds=max{ke0...n|x>br}. 
Man beachte, dass für x > an die Bedingung x < a; nie erfüllt wird, die 
erste Summe also komplett entfällt und für x < bo analog die Bedingung 
x > bj nie erfüllt wird, so dass dann die rechte Summe entfällt. In diesen 
beiden Fällen wird die Irrtumswahrscheinlichkeit also noch kleiner sein. Der 
kritischste Fall ist bo < x < a„, d.h. wenn beide Summen vorkommen. Wenn 
wir diesen abschätzen können, sind die Fälle x > a„ oder x < bo ebenfalls 
erledigt. 

Nach Konstruktion ist gerade noch b, < x, aufgrund der Antitonie bedeu- 
tet das aber B(x,n,s) < B(b,,n,s) = a/2. Ebenso ist gerade noch x < a; 
und damit 1- a/2 = B(a,n,t—- 1) < B(xz,n,t — 1) woraus wiederum 
1- B(x,n,t—- 1) < «/2 wird. Insgesamt haben wir also 


i(z,n) = 1-B(x,n,t-1)+B(x,n,s) < + 


D|8 
| 
ie) 














Clopper-Pearson ist die exakte Antwort auf das Problem - doch die Nachteile 
liegen auf der Hand: (1) die Berechnung des Konfidenzintervalls ist nur mit 
einem CAS oder einer Tabellenkalkulation durchzuführen. 
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Auch ist (2) die Berechnung leider nicht offensichtlich. Dazu kommt (3) für 
sehr kleine x = 0 oder sehr große x = 1 ist i(x,n) deutlich kleiner als «a, 
das Konfidenzintervall also zu groß. Wir suchen also nach einem Ansatz der 
einfacher zu handhaben ist und besser zugeschnittene Intervalle liefert, um 
den Preis, dass gelegentlich i(x,n) > a vorkommen kann. 


3. Versuch: Der Ansatz von Wald 
Eine Methode, die lange als Standard gegolten hat, betrachtet die Zufallsva- 
riable w auf B(n, x). Zunächst standardisieren wir w, d.h. wir bilden 


w- E(w) w—_ nz 


o(w) n&(1- x) 


Nach Moivre-Laplace geht die Binomialverteilung in die Normalverteilung 
über, und damit ist Z näherungsweise standard-normalverteilt. Ist die ma- 
ximal zulässige Irrtumswahrscheinlichkeit & vorgelegt, dann können wir das 
Intervall [-u, u] angeben, so dass Z die Häufigkeit 1— a über [-u, u] hat: 


Pı(-u<Z<u) = 1-a 


Dieses u ist u = ®"!(1- a/2) (siehe unten). Wir versuchen also die Menge 
{Ze |-u, u] } zu analysieren: |Z| < u ist nach Konstruktion äquivalent, zu: 


w-nz| < u-yYn«(l-x) 


In dieser Ungleichung ist der Parameter x ja leider unbekannt - aber er wird 
geschätzt, durch A := k/n wobei k die Auswertung (Ziehung) von w war. Wir 
ersetzen also x durch A und betrachten damit |v— nA| < u- YnA(l-A). 
Durch Division mit n wird dieser Ausdruck zu 


a1) 


an < 
n n 


Nun ist w/n aber ein Schätzer für den unbekannten Parameterwert x, wir 
ersetzen w/n also durch x und finden damit Schranken für den Wert von x: 


Te) 


e-Al < u: 
n 


Diese Gleichung kann sofort gelöst werden und wir finden ein Lösungsin- 
tervall Co(n, k,a) := |xı,xa], das als Konfidenzintervall (wir nennen es das 
Konfidenzintervall nach Wald) verwendet werden kann: 


AL) 


n 





wobei A = k/n und u = ®"!(1 - a/2). Dafür, dass bei der Herleitung des 
Intervalls so viele Ersetzungen stattgefunden haben, liefert es noch passable 
Ergebnisse. Der naheliegende Gedanke ist doch aber w durch k zu ersetzen 
und die erste Ungleichung nach x aufzulösen: 
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4. Versuch: Aus der Tschebyscheff-Ungleichung 

Wir erinnern uns an die Ungleichung von Tschebyscheff, die bemerkenswerter 
Weise ja für beliebige Zufallsvariablen X gilt. Sind u = E(X) der Erwar- 
tungswert und o? = V(X) die Varianz von X, dann gilt für alle u > 0: 


PX -ul2w) < 
Ist @ = 1/u? vorgelegt, dann kann man also sicher sein, dass die Werte, die 
X annimmt, mit einer Wahrscheinlichkeit von mindestens 1 — a innerhalb 
des Intervalls u # uo liegen. Ist x wieder der unbekannte Parameter der 
Binomialverteilung, dann gilt für X = w bekanntlich u = nz und o = 
ynz(l1- x). Wenn w also den Wert k angenommen hat, dann haben wir 
also folgende Ungleichung zu lösen: 


Ik-nz| < uynı(l-x) 





Satz 14.6: 

Seien 1<neNundkeoO...n. Ferner seien u > O0 und x € [0,1] belie- 
big vorgegeben. Dann besitzt die Ungleichung |k -nıx| < uy/nxz(1- x) das 
Lösungsintervall [xı,x2] wobei 








n+u? ° 2(n+ u?) 





k+u2/2 u Ak(n — k) + nu? 
71/2 . er 


Beweis: 
Da beide Seiten der Ungleichung positiv sind, ändert sich die Lösungsmenge 
nicht, wenn wir die Ungleichung quadrieren: (k - nz)? < u?nz(1 - x). Es 
handelt sich also um eine quadratische Ungleichung 

(k-ne)” -wne(l-x) < 0 


Diese Ungleichung lässt sich elementar lösen: (k - nz)? = k? — 2knx + n?x? 


und u?nz(1- x) = nu?z — nu?x?, damit wird diese Ungleichung zu 


(n? +nu?)e? - (2kn+nu)e+k? < 0 





n(n+wW)e? -2n(k+W/2)e +? < 0 
Bezeichnen wir n:=n+ u? und k:= k+ u2/2 und A := k/n und dividieren 
durch nn, dann sind wir also bei folgender Ungleichung angelangt 
k2 


2 -Art+ <o0 
nn 
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Wir haben es also mit einer nach oben geöffneten Parabel zu tun, von der 
wir den unter der x-Achse gelegenen Teil suchen. Die Lösungsmenge ist also 
das kompakte Intervall [x1, 2], wobei xı und xa die beiden Lösungen der 
Gleichung x? — Dir + = = (0 sind. Die Lösungsformel für quadratische 
Gleichungen liefert diese beiden Lösungen xı und xa also frei Haus, wir 
müssen sie nur noch auspacken: 




















12 = x zZ ‘2 = Rn 
nn 
u (er) > 
nn (n + u?) n(n+ u?) 
 n(k?+ku?+u?/4) nk?+k?u?) 
u n(n + u2)? n(n + u2)? 
 nk?u? + nu?/4— k?u? 
u n(n + u2)? 
u? 2 2 
_ Inn (Ank — Ak“ + nu“) 
u u Ak(n— k) + nu? 
Ant u2)? n 


Zieht man aus A? — k2?/(n) die Wurzel, so kann man den vorderen Faktor 
also heraus ziehen, als u/2(n+u?) und damit erhält man genau die Lösungen 
x&ı und xa, wie in der Behauptung gegeben. 














Ist die Irrtumswahrscheinlichkeit & € [0,1] vorgegeben, dann müssten wir 
nach Tschebyscheff u = /1/a wählen, um sicher zu gehen, dass i(z,n) <a 
ist. Das würde aber unsinnig große u ergeben, was daran liegt, dass die 
Ungleichung von Tschebyscheff für jede beliebige Verteilung von p gilt. Wir 
haben es hier aber mit der relativ zahmen Binomialverteilung zu tun. Eine 
exakte Abschätzung für u wäre möglich, aber Clopper-Pearson haben wir ja 
schon als zu kompliziert verworfen. Für große n ist die Binomialverteilung 
aber annähernd normalverteilt. Und für eine Normalverteilung lässt sich u 
deutlich leichter angeben, wie die folgende Bemerkung zeigt: 


Bemerkung 14.7: 

Wir bezeichnen die Verteilungsfunktion der Standardnormalverteilung mit 
®(u) := ©(0,1,u). Seien nun u € R und o > O beliebig fixiert und sei ferner 
ein a € [0,1] vorgegeben. Dann ist das Intervall A = [u - uo,u+uo]l <C R 
für dass der Anteil 1— a der (u, o)-normalverteilten Werte innerhalb A liegt 
(d.h. für das Y(u,o, A) =1- a gilt) gegeben, durch 


6) 
z 2 
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Die folgende Tabelle vergleicht ein paar ausgewählte Werte für dieses u im 
Falle der Standardnormalverteilung (4 =0,0=1) 


a | Yl/a | u 
0.20 | 2.23607 | 1.281558 
0.10 | 3.16228 | 1.64485 
0.05 | 4.47214 | 1.95996 
0.01 | 10.00000 | 2.57583 





Beweis: 

Es ist Y(u,o, A) = D(u,o, u+uo)— ®(u,o, u—uo). Aufgrund der Punktsym- 
metrie zu (w,1/2) wird daraus aber y(u,0, A) = 2(®(u,o,u+ uc) — 1/2) = 
2®(u,o, u + uo) — 1. Nun nutzen wir noch die Identität ®(u,o,u + u) = 
&(0,1,u) = ®(u) aus und erhalten 1- a = y(u,0,A) = 28(u) — 1 also 
28(u) =2 - a. Daraus wird dann sofort u = ©1(1- a2). 














Definition 14.8: Konfidenzintervall nach Tschbyscheff 
Seienl<neNundke0...n und die zulässige Irrtumswahrscheinlichkeit 
a € [0,1] vorgelegt. Dann definieren wir das Konfidenzintervall Co(n, k,«) 
zur Schätzung des Parameters x der Binomialverteilung B(n,x) bei w= k 
Erfolgen, als Co(n, k, a) := |xı, a] wobei 


— (\ _ =) 
- 2 


k+u?/2 u NE eDE 
max 0, 
n+ u? 2(n + u?) n 


: k+u2/2 u jan nm 
B— 1 
= in! n+u 7 2(n+ u2) n 
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Lemma 14.9: 
Seien a und x € [0,1] vorgelegt und bezeichne wieder u := d"1(1 - a2). 
Ferner sil<neNundke0O...n fixiert. Wir bezeichnen schließlich noch 


yu:= nz und o := /nx(l- x), dann sind äquivalent: 
(a) x € Coln,k,a) = |xı,x2] wie in (14.8) 


(b) ke Koln,z,a) := [u - uo, u +uo|NN 


Beweis: 
Wir bezeichnen die xı bzw. za aus (14.6) mit yı und ya. D.h. es sind xı = 
max{ 0,yı } und z2 = min{1,y2 }. In (b) — (a) ist k € [u — vo, u + uo] 
gegeben. Es gilt also offenbar |k — u| < uo also |k -nz| < uy/nz(l- x). 
Nach (14.6) wissen wir damit aber x € [yı, ya] und x € [0,1] gilt bereits nach 
Voraussetzung, also auch x € [xı, x2]. 

In umgekehrter Richtung (a) — (b) ist ze [xı,22] < [yı,y] gege- 
ben und nach (14.6) ist dies die Lösungsmenge der Ungleichung |k —nıx| < 
uynaı(l- x). Dies übersetzt sich aber wieder zu |k — u| < uo und da auch 


k € N vorausgesetzt war, wird daraus k € Ko(n, x, a). 














Bemerkung 14.10: 

Wenn wir die Lösungsformeln aus (14.6) haben, dann lässt sich die Formel 
von Wald sehr viel besser verstehen, als nur mit der direkten Herleitung 
in Versuch Nr. 3. Zunächst einmal stellen wir fest, dass statt n und k die 
verschobenen Ausdrücke n :=n + u? und k := k + u?/2 vorkommen. Und 
statt des Schätzers A = k/n tritt A = k/n auf. Mit diesen Bezeichnungen 
wird die Lösungformel zu 





x ae 
172 n 2n 





= ‘a — 


n am n-n 








k 2 eben Sr u. _ k2 


Für große n und nicht zu kleine k bestehen dann die Näherungen n = n, 
k = k und damit ist dann auch A = X. Ferner können wir nu? gegenüber 
An(n—k) vernachlässigen. Damit geht diese Formel in die Wald-Formel über: 


N) 


2m n n 
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Bemerkung 14.11: 

Es gibt noch einen zweiten, geometrischen Weg die Formel von Wald zu 
deuten. Wie in (14.6) beginnen wir wieder mit der Tschebyscheff-Ungleichung 
für die Binomialverteilung 


Ik-nz| < uynı(l-x) 


Kennen wir die Erfolgswahrscheinlichkeit x, dann können wir diese nach k 
auflösen und erhalten so ein Prognoseintervall kı...ka für den Bereich, in 
dem die Zahl der Erfolge liegen wird - mit einer Irrtumswahrscheinlichkeit 
von a & 2(1 —- ®(u)), nämlich 


kıya = netuynae(l-x) 
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Durch Division durch n wird daraus ein Prognoseintervall für die relative 
Häufigkeit h = k/n der Erfolge - mit derselben Irrtumswahrscheinlichkeit a 


x(1-x) 





hıya = ZU 


Betrachtet man die Grenzen dieses Intervalls als Funktionen hıya(x) in der 
Variablen x, dann erhält man ein Bild, das auch Konfidenzellipse genannt 
wird. Die folgende Abbildung zeigt diese für n = 50 und u = 1.64, also für 
eine Irrtumswahrscheinlichkeit von & = 10% 
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Liest man hı bzw. ha zu vorgegebenem x ab, so erhält man also das Pro- 
gnoseintervall, in dem die relative Häufigkeit Ah mit 1— a Wahrscheinlichkeit 
liegen wird. Dieses Intervall verwendet nur die Näherung der Binomialver- 
teilung durch eine Normalverteilung um den Faktor u zu berechnen. Hier ist 
das Prognoseintervall zu x = 40% eingezeichnet. 

Liest man aber umgekehrt zu vorgegebenem h die Werte 1/2 = h1ja(h) 
ab, so erhält man das Konfidenzintervall nach Tschebyscheff zu k = nh. Dies 
hat dieselbe Wahrscheinlichkeit x zu überdecken von etwa 1- a, da es sich 
ja um eine äquivalente Umformulierung der Ungleichung handelt. Man sieht 
aber, dass die Ellipse näherungsweise symmetrisch zur grün eingezeichneten 
Winkelhalbierenden h = x ist. Man kann also x]/a näherungsweise berech- 
nen, indem man einfach © und h in der Formel für das Prognoseintervall 
vertauscht. Damit ergibt sich aber genau die Formel für das Konfidenzinter- 
vall nach Wald: 

h(1-h) 


n 





71/2 = hzu 
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Das Konfidenzintervall nach Tschebyscheff hat gegenüber Clopper-Pearson 
den klaren Vorteil einfach berechenbar zu sein, doch dafür haben wir einen 
hohen Preis bezahlt: indem wir u aus der Normalverteilung gewonnen haben, 
obwohl eine Binomialverteilung vorliegt, ist das Intervall nicht mehr exakt! 
Es gilt nicht mehr i(z,n) < a sondern nur noch i(z,n) & a. Und i(x,n) 
schwankt erstaunlich erratisch herum. 

Es kann vorkommen, dass i(x,n) sehr gut ist, aber ö(x,n +1) deutlich über 
a liegt. Näheres dazu findet sich in dem Übersichtsartikel [Brown, Cai, Das- 
Gupta; Interval Estimation for a binomial Proportion]. Wir wollen hier nur 
ein Beispiel angeben, für den häufigsten verwendeten Wert a = 0.05: 


i(0.5,25) = 0.04329 
i(0.5,26) = 0.07552 


Wir sehen, dass sich die Irrtumswahrscheinlichkeit erhöht hat, obwohl durch 
die größere Zahl an Ziehungen die Annäherung an die Normalverteilung ei- 
gentlich besser sein sollte! Und das bei einem freundlichen Parameter von 
x = 0.5. Dieser Ansatz hat also leider noch Mängel. 

Immerhin ist er schon ein deutlicher Fortschritt gegenüber dem Ansatz 
von Wald, dessen Abweichungen deutlich größer und genauso erratisch ver- 
teilt sind. Bevor wir die Mängel mildern, wollen wir aber zunächst einmal 
betrachten, wie man diesen Ausdruck für xı und xa zu verstehen hat und 
woher die Verbesserung gegenüber Wald kommt: Das Intervall hat nämlich 
nicht die Mitte A = k/n, sondern ist verschoben worden, zu A = k/n wobei 
n:=n+u? und k := k+ u?/2. Dies liegt an der Asymmetrie der Binomi- 
alverteilung. Für @ = 0.05 ist u = 2 und damit A = (k +2)/(n +4). Man 
kann dies interpretieren, als 4 weitere Ziehungen mit 2 weiteren Erfolgen. 
Der Wurzelausdruck lässt sich schlechter interpretieren, weswegen wir ver- 
sucht sind eben diesen zu modifizieren. 


5. Versuch: Ansatz von Agresti-Coull 

Die folgende Modifikation stammt aus dem Jahr 1998 und hat sich auf- 
grund ihrer schönen Interpretierbarkeit und guten Ergebnisse neben Clopper- 
Pearson zum neuen Standard entwickelt 


Definition 14.12: Konfidenzintervall nach Agresti-Coull 
Seienl<neNundke0...n und die zulässige Irrtumswahrscheinlichkeit 
a € [0,1] vorgelegt. Dann definieren wir das Konfidenzintervall Co(n, k, «) 
zur Schätzung des Parameters x der Binomialverteilung B(n, x) beiw= k 
Erfolgen, als Co(n, k, a) := [x1, 2] wobei 


u: 0 (1-5) 





2 2 
k = k+u/2 
nn := n+uw 
Are 
n 
xıı = ma 0,\ u en 
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P Ale 
x := min? L,A+u: um 


Bemerkung 14.13: 

Obwohl das Konfidenzintervall von Agresti-Coull eine schöne, durchsichtige 
Struktur hat, haben wir uns (insbesondere für große n) nur unwesentlich 
von dem Intervall nach Tschbyscheff wegbewegt. Wertet man diesen Aus- 


druck aus, so findet man letztlich nur einen marginalen Unterschied unter 
der Wurzel 


72 4k(n — 2+ uf 
PR un) u je k)+2nu? +u 
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Konfidenzintervall zur Normalverteilung 

Wir haben bisher immer Konfidenzintervalle einer binomial-verteilten Zu- 
fallsvariablen betrachtet. Wir wollen uns nun mit normal-verteilten Zufalls- 
variablen beschäftigen. Eine mögliche Problemstellung lautet also: Wir wol- 
len Untersuchen ob Personen, die auf dem Land leben weniger intelligent 
sind, als Personen, die in der Stadt leben. Deswegen nehmen jeweils 20 zu- 
fällig ausgewählte Personen an einem Intelligenztest teil. Da die Auswahl 
aber zufällig war, genügt es nicht die mittleren IQs zu vergleichen, wir müs- 
sen Konfidenzintervalle bilden und prüfen, wie diese zueinander liegen. 

Es geht also darum den Mittelwert u einer normal-verteilten Größe zu 
ermitteln und einen Konfidenzbereich dafür anzugeben. Dabei müssen wir 
aber zwei verschiedene Situationen betrachten: (1) Im einfachsten Fall ist 
die Standardabweichung o der Größe bekannt - beim Intelligenztest ist sie 
beispielsweise definiert. (2) In den meisten Fällen, müssen wir die Standard- 
abweichung aber auch noch schätzen. Es wird sich zeigen, dass dieser Fall ist 
deutlich schwieriger ist: 


Schätzung von u bei bekanntem o: 

Sei also X € Z(R) eine normal-verteilte Zufallsvariable, d.h. es ist Fx = 
®(1u,0), wobei u unbekannt, aber o bekannt ist. Wir legen ein Konfidenz- 
niveau @ € [0,1] fest und suchen ein Schätzintervall Ko(a) < R so dass 
p(X € Kola)) > 1- a ist. Dazu gehen wir wie folgt vor: 


e Wir führen eine Stichprobe x = (z1,...,2n) € R” der Größe X aus. 
Als Schätzer für u wählen wir das arithmetische Mittel A := A(r). 


e Wie immer bezeichne ® die Verteilungsfunktion der Standard Normal- 
verteilung N (0,1), dann berechnen wir wieder u := ®"!(1- a/2) und 
nehmen als Schätzintervall: 
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Zur Begründung: Ist X, : S" — R: (sı,...,$n) > X(s;) die k-te Aus- 
führung der Ziehung von X und damit A = (Xı +... + X„)/n die Zu- 
fallsvariable des Mittels der n-fachen Durchführung von X, dann hat A den 
Erwartungswert E(A) = u und die Varianz V(A) = o?/n. Damit ist A also 
®(u,co/Yn)-verteilt. Und folglich gilt für die Standardisierung von A: 


p(Ae Kola)) = (us <u) = 1-a 


Schätzung von u und o: 

Zunächst benötigen wir speziell hierfür eine weitere Verteilung, die Student- 
sche T-Verteilung. Sie modelliert den Quotienten ®/\/xn/n einer Standard- 
normal-verteilten Zufallsvariablen und einer davon unabhängigen Chi-Qua- 
drat-verteilten Zufallsvariablen mit n Freiheitsgraden. 


Definition 14.14: 
Seil<neN festgelegt, wobei wir n als Zahl der Freiheitsgrade bezeichnen. 
Dann betrachten wir die folgende Dichtefunktion 


Mit Hilfe dieser Dichtefunktion definieren wir das Wahrscheinlichkeitsmaß 
n und dessen Verteilungsfunktion 7,. Wir nennen 7(n) := (R,B(R), rn) 
die (Studentsche) T-Verteilung. Seien also Be B(R) undxzeR, dann: 


[ereoa 
ie t„(u)du 


Sei wieder X € Z(R) eine normal-verteilte Zufallsvariable, d.h. es ist Fx = 
®(u,o), wobei diesmal aber u und o unbekannt sind. Wir suchen wieder 
Ko(a) < R so dass p(X € Ko(a)) > 1- a ist, für ein vorgelegtes a € [0,1]. 
Dazu gehen wir wie folgt vor: 


3 

nn 

= 
| 


2 

rn 

= 
| 


e Wir führen eine Stichprobe x = (z1,...,2n) € R” der Größe X aus. 
Als Schätzer für u wählen wir das arithmetische Mittel A := A(r). 


e Aus dieser Stichprobe schätzen wir auch o, der erwartungstreue Schät- 
zer hierfür ist allerdings nicht o(x), sondern 











e Sei T,-ı die Verteilungsfunktion der T-Verteilung 7’(n—-1) zun-1 
Freiheitsgraden, dann berechnen wir u := T,!,(1- a/2) und nehmen 
als Konfidenzintervall: 


0 


Kola) := b u A er 
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Zur Begründung: Bezeichnen wir X, und A wie oben, dann nehmen wir noch 
eine weitere Zufallsvariable auf Q := (X1-A)?+...+(Xn— A)?. Damit folgt 
Q/o? einer x?-Verteilung mit n—1 Freiheitsgraden und es ist E(Q/(n-1)) = 
co?. Bezeichnen wir nun noch $ := YQ/(n-1) und T := Yn- (A- u)/S, 
dann kann man zeigen, dass T einer t- Verteilung mit (n — 1)-Freiheitsgraden 
folgt. Und durch die Wahl von u gilt nun 





p(AeKola)) = p-u<T<u = 1-a 


Statistische Modelle 

An diesen beiden Beispielen sieht man bereits, dass es schwierig ist, ein 
einheitliches Konzept dafür anzugeben, wie man Konfidenzintervalle berech- 
nen muss. Wir entwickeln zum Schluss des Abschnittes aber zumindest noch 
einen Formalismus, der geeignet ist, um das Problem der Konfidenzintervalle 
zu beschreiben. 


Definition 14.15: Statistische Modelle: 

Wir nennen (S, A, P) ein statistisches Modell über der Parametermen- 
ge A, falls A eine o-Algebra auf der Menge $ ist und P= (pı) eine Familie 
(über A € A) von Wahrscheinlichkeitsmaßen pı : A — [0,1] ist. Mit anderen 
Worten: zu jedem A € A ist (5, A,pı) ein Wahrscheinlichkeitsraum. 


Beispiel 14.16: 

Im Grunde sind alle Wahrscheinlichkeitsverteilungen die wir bisher einge- 
führt haben statistische Modelle, da sie ja alle Parameter enthielten. Wir 
wollen nur zwei davon gesondert heraus stellen: 


(i) Sin 1 <r,ne NundX = (A1,...,Ar) € A, vorgelegt. Dabei 


bezeichnet A, wie immer den (r — 1)-dimensionalen Standardsimplex 
Ay = IA= (AdeeyA) eR’ | A; >0,A1 ++. =1} 


Dann ist die Multinomialverteilung M(n) := (5,A,P) ein statisti- 
sches Modell über der Parametermenge A = A,, wobei $ = (1...r)”, 
A=P(S) und P= (p,) mit X € A, ist. Dabei wurde die Wahrschein- 
lichkeitsverteilung px : $S — [0,1] bereits in (8.3) eingeführt. Offenbar 
modelliert M(n) die n-fache Ziehung mit Zurücklegen, aus einer Urne 
mir r Sorten von Kugeln. 


Das statistische Modell der Normalverteilung N := (R,B(R),T) hat 
die Wahrscheinlichkeitsmaße Y(u,c) mit Gauss-Funktion g(u,o) als 
Dichte - vergleiche (13.1). Die Parametermenge ist dabei A := Rx Rso 
d.h. es ist T = (Y(u,c)) wobei (1,0) €E A. 


(i 


—_ 


Bemerkung 14.17: 


(i) Ist (8, A, P) ein statistisches Modell mit Parametermenge A und ist 
X:S-R eine Zufallsvariable (d.h. für alle Borel-messbaren Mengen 
BeB(R) gilt X”!(B) € A), dann induziert X eine Familie X,P = 
(qı) von Wahrscheinlichkeitsmaßen auf R, vermöge 


a:BR)->[0,1: Bopm(XeB) 
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(iii) 


D.h. (R,B(R), X, P) ist wiederum ein statistisches Modell über dersel- 
ben Parametermenge A. Und zu jedem A € A bezeichnen wir die von 
qı Induzierte Verteilungsfunktion mit 


FR: R-[P,1:zx+p(X<e) 


Sei nun weiter T eine abzählbare Menge und X : $ — T eine T-wertige 
Zufallsvariable auf $ (d.h. für alle t € T gelte X"!(t) € A). Ist nun 
teT ein Zufallsereignis fixiert, dann definieren wir die Funktion 


p :A>[0,1] : AH p(X =t) 


Ist nun zu jedem t € T ein Co(t) < A gegeben und bezeichnen wir 
Cı(t) := A\ Co(t), dann nennen wir die Co(t) eine Familie von Konfi- 
denzintervallen zum Konfidenzniveau 1— «a, falls für alle A E A gilt 


WA,X) <a 


wobei a € [0,1] vorgegeben ist. Und die Irrtumswahrscheinlichkeit 
i(A, X) der Familie Co(t) ist dabei definiert, durch 


| u pi(A) für de Cı(t) 
uA,X) := >| 0 für X € Col) 


Wie in (i) ist a: T + [0,1] :t > pı(A) eine Wahrscheinlichkeitsver- 
teilung auf T, d.h. (T,qı) ist ein Laplace-Raum. Der n-fache Produk- 
traum (T,q,)®” hat dann die Wahrscheinlichkeitsverteilung 


n 
a ee [0,1] : (1...) ][rr(& = 5) 
i=1 


Es bedeutet daher keine Einschränkung der Allgemeinheit, dass wir 
und auf ein Ergebnis t € T beschränkt haben. Ist t = (tı,...,t„) € T” 
eine Folge von Zufallsergebnissen, dann könnte man die Funktion 


pr :A>[0,1 : > ]]aa&X = 1) 
1 


betrachten. Damit ließe sich die Definition in (ii) wortgleich wieder- 
holen. Dies erhält man aber auch, wenn man die n-fachen Produk- 
träume unter der Zufallsvariablen X” : 5" — T" : (s1,...,5n) 
(X (sı),..., X (sn)) verwendet, liefert also nichts Neues. 
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Kapitel 15 


Hypothesentests 


Hypothesentests widmen sich folgender Fragestellung: Man beobachtet eine 
überraschende Abweichung von dem erwarteten Ergebnis und fragt sich, ob 
diese Abweichung rein zufällig war. Zum Beispiel: Man möchte meinen, ein 
Würfel liefert alle 6 Zahlen mit gleicher Wahrscheinlichkeit. Aber ist das 
noch haltbar, wenn bei 100 Würfen 25 Sechser geworfen wurden? 

Zunächst muss also die Hypothese formuliert werden. Dabei soll die Null- 
hypothese Ho ausdrücken, dass doch alles so ist, wie erwartet, die Abwei- 
chung also lediglich zufällig ist. In unserem Fall mit dem Würfel wäre also 
Ho : p(6) = 1/6. Die Alternativhypothese H} ist normaler Weise die Vernei- 
nung von Ho. Wägt man aber zwei Hypothesen gegeneinander ab, so kann Hı 
auch eine selbstständige Aussage sein. In unserem Fall wäre Hı : p(6) > 1/6 
angemessen. 

Man legt also eine maximal zulässige Irrtumswahrscheinlichkeit a € [0,1] 
fest. Die Idee ist nun: man versucht Hı (die Abweichung ist signifikant) zu 
rechtfertigen, indem man beweist, dass das Versuchsergebnis unter der An- 
nahme von Ho sehr unwahrscheinlich (< «) ist. Wenn Ho unwahrscheinlich 
ist (und es keine weiteren Alternativen gibt), dann ist Hı also plausibel (mit 
einer Wahrscheinlichkeit von > 1- a). Wir nennen 1— «a daher auch das 
Signifikanzniveau des Tests. 

Weil es dabei aber um Wahrscheinlichkeiten geht, kann man sich auch 
täuschen. Grundsätzlich gibt es 4 mögliche Kombinationen: 


Ho wurde bestätigt | Ho wurde verworfen 
Ho ist wahr alles richtg a-Fehler 
Ho ist falsch B-Fehler alles richtig 














Ein a-Fehler (auch Fehler 1. Art genannt) liegt vor, wenn Ho fälschlicher 
Weise verworfen wurde. Man wird (zumindest in diesem Test) nie erfahren, 
ob ein a-Fehler eingetreten ist, aber der Test wurde ja so konzipiert, dass 
die Wahrscheinlichkeit dafür höchstens a ist. 

Ein ß-Fehler (auch Fehler 2. Art genannt) liegt vor, wenn Ho nicht ver- 
worfen wurde, obwohl sie unzutreffend ist. Die Wahrscheinlichkeit 8 dafür 
kann man (zumeist) nicht berechnen, wenn den zu testenden Parameter nicht 
kennt - und dann hätte man sich den Test ja sparen können. Dabei kann 8 
sehr groß sein - zum Beispiel wenn der tatsächliche Wert des Parameters 
nahe (aber nicht genau auf) dem in Hy vermuteten Wert liegt. 


158 


Beispiel 15.1: 

Ein Großhändler für Feuerwerkskörper hat einen Dachschaden und zahlrei- 
che Kisten sind feucht geworden. Der Lagerleiter schlägt vor, die Ware zum 
reduzierten Preis zu verkaufen und verspricht: Mindestens A = 75% der Wa- 
re ist noch voll funktionstüchtig. Sie sollen testen, ob die Behauptung des 
Lagerleiters haltbar ist. 

Sie entschließen sich also einen Test zu machen - es verbietet sich eine 
Vollerhebung durchzuführen, weil Sie dann nichts mehr zu verkaufen hätten. 
Sie nehmen sich also eine Kiste mit n = 20 Raketen und feuern diese ab. Es 
stellt sich heraus, dass nur k = 13 der Raketen starten - müssen Sie also die 
Behauptung des Lagerleiters verwerfen? 

Wir wollen eine maximale Irrtumswahrscheinlichkeit von a = 0.05 = 5% 
zulassen. Jede Rakete für sich kann einwandfrei funktionieren, oder eben 
nicht - es handelt sich also um eine Binomialverteilung. Die folgende Abbil- 
dung zeigt die Binomialverteilung B(20, 0.75): 


0.25 1 
Ablehnungsbereich 1 Annahmebereich 
0.20 K (nA,a) 1 K ‚in, A,c) 
(Wahrscheinlichkeit<a) : (Wahrs lichkeit 2 1- a) 

0.15 i 

0.10 ee 

0.05 | 

0.0 m I l- 


0372:425 6785 982 WE 2: BB 14 DB IE 7 Wi 19: 20 


Betrachtet man diese so stellt man fest, dass die Gesamtwahrscheinlichkeit 
der Zahlen O bis 11 funktionierender Raketen kanpp 5% beträgt. Die restli- 
chen Anzahlen 12 bis 20 haben eine Wahrscheinlichkeit von etwas über 95%. 
Um mit einer Sicherheit von 1—- a = 95% sagen zu können, dass das Marke- 
ting die Lage zu optimistisch einschätzt, hätten also höchstens 11 Raketen 
nicht funktionieren dürfen. Da es aber 13 waren, kann die Hypothese der 
Marketing-Abteilung nicht verworfen werden. Wir formalisieren nun diese 
Vorgehensweise: 


Test 15.2: Linksseitiger Test: 

Wir gehen davon aus, dass die Zufallsvariable X binomialverteilt ist B(n, x), 
mit n Stufen und unbekannter Eintrittswahrscheinlichkeit x. Wir wollen die 
Hypothese Ho: x > A für ein A e [0,1] testen. Dann gehe wie folgt vor: 


1. Lege die maximal zulässige Irrtumswahrscheinlichkeit « € [0,1] fest. 
Berechne zu dieser den Maximalwert m, so dass 


k 
m uns| he0..n | Hm) <a 


i=0 
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Näherungsweise kann man die Binomialverteilung durch die Normal- 
verteilung ersetzen, um die Berechnung von m zu vereinfachen. In die- 
sem Fall sei u. := nA und o? = nA(1- X) > 9. Dann nehme 


1 
m N 0 (o)+n-; 


. Damit definieren wir den Ablehnungsbereich Kı(n,A,a) :=0...m und 


den Annahmebereich Ko(n,A,a) := (m+1)...n. 


. Führe den Versuch X (ggf. allen Wiederholungen eines einzelnen Ver- 


suchs X}) aus, das Versuchsergebnis (also die Anzahl der Vorkomm- 
nisse inX)seike0...n. 


. Ist ke Ko(n,A,«a) dann nimm die Hypothese Ho an. Die Wahrschein- 


lichkeit 8 dafür, dass Ho dennoch falsch ist, ist unbekannt und kann 
groß sein. 


. Ist ke Kı(n,\,«a) dann verwerfe Hy und nimm Hı : x <A an. Die 


Wahrscheinlichkeit dafür, dass Ho dennoch wahr ist, liegt höchstens 
bei a. 


Test 15.3: Rechtsseitiger Test: 

Wir gehen davon aus, dass die Zufallsvariable X binomialverteilt ist B(n, x), 
mit n Stufen und unbekannter Eintrittswahrscheinlichkeit x. Wir wollen die 
Hypothese Ho: x <A für ein A e [0,1] testen. Dann gehe wie folgt vor: 


1. 


Lege die maximal zulässige Irrtumswahrscheinlichkeit & € [0,1] fest. 
Berechne zu dieser den Minimalwert m, so dass 


k 
a nin| eo. 1a yon) 


i=0 


Näherungsweise kann man die Binomialverteilung durch die Normal- 
verteilung ersetzen, um die Berechnung von m zu vereinfachen. In die- 
sem Fall sei u. := nA und o? = nA(1- X) > 9. Dann nehme 


1 
m nz er leo iss 


. Damit definieren wir den Annahmebereich Ko(n,A,«a) := 0...m und 


den Ablehnungsbereich Kı(n,A,a) := (m+1)...n. 


. Führe den Versuch X (ggf. alle n Wiederholungen eines einzelnen Ver- 


suchs X}) aus, das Versuchsergebnis (also die Anzahl der Vorkomm- 
nisse inX)seike0...n. 


. Ist ke Ko(n,A,«a) dann nimm die Hypothese Ho an. Die Wahrschein- 


lichkeit 3 dafür, dass Ho dennoch falsch ist, ist unbekannt und kann 
groß sein. 


. Ist k € Kı(n,A,ca) dann verwerfe Ho und nimm H, :x > X an. Die 


Wahrscheinlichkeit dafür, dass Ho dennoch wahr ist, liegt höchstens 
bei a. 
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Beispiel 15.4: 

Ein Würfel wird n = 100 Mal geworfen und zeigt k = 25 Mal eine Sechs an. 
Das kommt uns erstaunlich vor und deswegen fragen wir uns, ob das noch 
eine zufällige Abweichung sein kann. Die Nullhypothese lautet also, dass die 
unbekannte Wahrscheinlichkeit x € [0,1] eine Sechs zu würfeln nur x = 1/6 
beträgt. Kurz s 

Ho ae 6 

Die Verneinung von Ho ist Hı : x £ 1/6, sollten wir also Ho ablehnen, 
dann müssen wir H} annehmen. Als Irrtumswahrscheinlichkeit lassen wir wie 
üblich & = 0.05 = 5% zu. Wie kann man entscheiden, ob Hy zu verwerfen 
ist? In diesem Fall könnten wir natürlich Konfidenzintervalle verwenden: Wir 
berechnen mit der Methode von Agresti-Coull: 


Co(n,k,a) = [0.175,0.343] 


Offenbar ist knapp 1/6 € Co(n, k, «), d.h. nur in höchstens « = 5% der Fälle 
hätte ein Würfel mit x = p(6) = 1/6 eine Anzahl von k = 25 Sechsen bei 
n = 100 Würfen ergeben. Wir sind uns also 1—- a = 95% sicher, dass Ho 
falsch ist. Daher nehmen wir H} an. Eine genauere Rechnung zeigt, dass 
in diesem Fall die Irrtumswahrscheinlichkeit 4.3% beträgt. Berechnet man 
das Konfidenzintervall aber nicht mit Agresti-Coull (14.12) sondern mit dem 
Ansatz aus Tschebyscheff (14.8), dann ergibt sich fast dasselbe Intervall (die 
Abweichung tritt bei einer Rundung auf 3 Nachkommastellen nicht auf) die 
genaue Irrtumswahrscheinlichkeit läge aber bei 5.9%. 

Wie wir in (14.9) gesehen haben, ist der Ansatz mit dem Konfidenzinter- 
vall aus dem Ansatz von Tschebyscheff äquivalent dazu, dass k im Intervall 
Ko(n,A,«) liegt. D.h. es gilt 


zeColn,k,a) > keKoln,z,e) 


Dabei ist Ko(n,x,a) = [u — vo, u + uo]lNN mit u = nz, o = /nı(l- x) 
und u = ®"!(1 - a/2). In unserem Fall ergibt sich also Ko(100, 1/6,5%) = 
10...24 und man sieht wieder, dass Ho gerade noch abgelehnt werden muss. 
Auf diese Weise erspart man sich also die Berechnung des Konfidenzinter- 
valls, weswegen wir das Schema des Punkttests auch so formulieren wollen: 


Test 15.5: Punkttest: (Beidseitiger Test) 

Wir gehen davon aus, dass die Zufallsvariable X binomialverteilt ist B(n, x), 
mit n Stufen und unbekannter Eintrittswahrscheinlichkeit x. Wir wollen die 
Hypothese Ho :x = A für ein A e [0,1] testen. Dann gehe wie folgt vor: 


1. Lege die maximal zulässige Irrtumswahrscheinlichkeit a € [0, 0.5] fest. 
Zu dieser berechne a und bEO...n so dass 


k 
A — uin| eo. 5 Yon} 
i=0 


k 
i a : 
bs uin| eo. ee | 
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Damit definieren wir den Annahmebereich Ko(n,A,a) := a...b und 
den Ablehnungsbereich Kı(n,A,a) :=0...n\ Ko(n,A, a). 


2. Näherungsweise kann man die Binomialverteilung durch den Ansatz 
|k—u| < u-o ersetzen, um die Berechnung von a und b zu vereinfachen. 
In diesem Fall sei 1 := nX und 0? := nA(1-A) und u := ®"1(1-a/2). 
Dann nehme 


Ko(n,A,a) := [u -wo,u+uo]lNN 


3. Führe den Versuch X (ggf. allen Wiederholungen eines einzelnen Ver- 
suchs X}) aus, das Versuchsergebnis (also die Anzahl der Vorkomm- 
nisse inX)seike0...n. 


4. Ist ke Ko(n,A,«a) dann nimm die Hypothese Ho an. Die Wahrschein- 
lichkeit 3 dafür, dass Ho dennoch falsch ist, ist unbekannt und kann 
groß sein. 


5. Ist k & Ko(n,A,«a) dann verwerfe Ho und nimm Hı :x #X an. Die 
Wahrscheinlichkeit dafür, dass Ho dennoch wahr ist, liegt höchstens 
bei a. 


Würde man x kennen (was einen Test ad absurdum führt), könnte man 
auch die Wahrscheinlichkeit 3 berechnen, dass Ho angenommen wird, obwohl 
x AX ist, also wenn k € Ko(n,A,«) ist. Die Wahrscheinlichkeit, dass k 
vorkommt, ist px(w = k). Insgesamt also 


Wir haben nun also die verschiedenen Fälle eines Hypothesentests einer bi- 
nomial verteilten Zufallsvariablen durch dekliniert. Es wird Zeit einen forma- 
len Rahmen so finden, in dem sich zeigen lässt, das die eben beschriebenen 
Tests tatsächlich eine Irrtumswahrscheinlichkeit von höchstens a für einen 
a-Fehler haben. Da es sich bei Tests um ein sehr allgemeines Problem han- 
delt, ist auch die folgende Definition sehr allgemein gehalten. Sie sagt nur 
was ein Test ist und wann er gut ist, nicht wie man einen Test findet: 


Definition 15.6: Hypothesentest: 

Sei (5, A, P) ein statistisches Modell über der Parametermenge A, d.h. P = 
(pı) mit AE A ist eine Familie von Wahrscheinlichkeitsmaßen auf S. Dabei 
sei x € A der tatsächlich vorkommende, unbekannte Parameterwert. Sei 
ferner X :$ — T eine Zufallsvariable in einen beliebigen Maßraum (T,B). 


(i) Eine nicht-leere Teilmenge 0 #Ao < A nennen wir eine Hypothese 
an (5,A,P). Die Nullhypothese ist die Aussage Hy = (x € Av), die 
Alternative ist die Aussage Hı = (x € As). 


(ii) Eine nicht-leere, messbare Teilmenge Ko < T mit Ko € B nennen 
wir Annahmebereich, ihr Komplement Kı := T \ Ko heißt Ableh- 
nungsbereich für Ho. 
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(iii) Seien nun eine Hypothese Ao < A und ein Annahmebereich Ko < T 
fixiert. Ein Test (Ao, Ko,t) besteht nun darin, dass wir ein Zufallsex- 
periment mit X ausführen - das Ergebnis sei te T’. Die Hypothese Ho 
wird angenommen, wenn tE Ko bzw. abgelehnt, wenn t € K] ist. 


(iv) Wir sprechen von einem a-Fehler, wenn x € Au aberte K, ist. Die 
Wahrscheinlichkeit eines solchen Fehlers ist (für x € Ao): 


a = Mm(XEK)) 


(v) Wir sprechen von einem ß-Fehler, wenn x £ Ao aber tE Ko ist. Die 
Wahrscheinlichkeit eines solchen Fehlers ist (für x & Ao): 


BP = Px(X € Ko) 


(vi) Sei nun a € [0,1] eine festgelegte, maximal zulässige Irrtumswahr- 
scheinlichkeit, Au < A sei eine Hypothese und B C T ein Annahme- 
bereich für Ho. Dann nennen wir B a-zulässig, falls gilt: 


vVAEeMı : mlXEB) <a 


Und wir nennen © C T einen a-optimalen Annahmebereich für Ho 
wenn (1) C ist ein a-zulässiger Annahmebereich für Ho und (2) C' hat 
eine minimale Wahrscheinlichkeit, einen 5-Fehler zu begehen: D.h. für 
alle a-zulässigen BC T gilt 


VAEA\Ao : m(XeC) < m(XeB) 


Bemerkung 15.7: 

Hypothesentests werden insbesondere in psychologischen Gutachten und vor 
Gericht verwendet. Nach der Konstruktion dieser Tests kann man aber nur 
die Irrtumswahrscheinlichkeit für einen a-Fehler kontrollieren. Es muss Ho 
also die Unschuldsvermutung sein: Die Wahrscheinlichkeit einen Unschuldi- 
gen zu verurteilen soll klein sein. Je kleiner man «& macht, desto höher wird 
natürlich 8 - die Wahrscheinlichkeit, dass ein Schuldiger nicht verurteilt wird. 
Ein optimaler Test ist also solcher, der ’nur’ Schuldige trifft (mit Irrtums- 
wahrscheinlichkeit < a), aber möglichst wenige Schuldige ungestraft davon 
kommen lässt (also minimale Irrtumswahrscheinlichkeit 3 hat). 
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Satz 15.8: 

Sei ($,A, P) = B(n) das statistische Modell der n-stufigen Binomialvertei- 
lung. Wir betrachten X =w: $ —0...n die Zufallsvariable der Zahl der 
Erfolge. Sei schließlich « € [0,1] eine vorgelegte, maximale Irrtumswahr- 
scheinlichkeit. Dann gilt: 


(i) Ist Ao = [A,1] für ein A € [0,1], dann ist der oben für linksseitige 
Tests definierte Annahmebereich Ko(n,A,«a) ein a-zulässiger Annah- 
mebereich für Ao. 


(i) Ist Ao = [0,A] für ein A € [0,1], dann ist der oben für rechtsseitige 
Tests definierte Annahmebereich Ko(n,A,«a) ein a-zulässiger Annah- 
mebereich für Ao. 


(ii) Ist Ad = {A} für ein‘ e [0,1], dann ist der oben für Punkttests de- 
finierte Annahmebereich Ko(n,A,«a) ein a-zulässiger Annahmebereich 
für Ho. 


Diese Annahmebereiche sind im allgemeinen aber nicht a-optimal! Dies liegt 
daran, dass die Verteilungsfunktion der Binomialverteilung in diskreten Schrit- 
ten steigt. Man kann also oft noch einige Einträge aus Ko streichen, ohne 
die Schwelle a zu übersteigen, reduziert dabei aber den 5-Fehler. 


Beweis: 

Da (5,A,P) das statistische Modell der n-stufigen Binomialverteilung ist, 
gilt pı(i) = b(n,A,i). Die kumulierte Verteilung der ersten k Wahrschein- 
lichkeiten b(i, A,i) bezeichnen wir, mit 


k 


B({n,A,k) := ) bin, A, i) 


i=0 


Und nach (8.2.(vi)) lässt sich diese Verteilung auch berechnen, mit Hilfe der 
B-Verteilung, genauer gilt: 





B(n,\,k) = = I: — t)"dt 
nr (nn -k-1)!:klyo 

ItnnO <ks sAsldannist 1-A<1-x und damit sieht man an 

der obigen Identität sofort B(n,A,k) < B(n.k, k). Mit dieser Antitonie der 

Binomialverteilung sieht man dann weiter: 


(i) Nach Konstruktion ist Ko(n,A,a) = (m+1)...n für das maximale 
m mit B(n,A,m) < a. Wir verabreden nun die Abkürzungen Ko := 
Ko(n,A,a) und K} := T\Ko = 0...m. Dann zeigen wir die a- 
Zulässigkeit von Ko: sei also x € Ao, d.h. x > A. Dann ist aufgrund 
der Antitonie p.(w € K1) = B(n,k,m) < B(n,A,m) < «a. Also ist 
insgesamt p«(w £ Ko) < a, was die a-Zulässigkeit von Ko bedeutet. 
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(ii) Nach Konstruktion ist Ko(n,A,a) = 0...m für das minimale m mit 
der Eigenschaft 1—- a < B(n,A,m). Wir verabreden nun die Abkür- 
zung Ko := Ko(n,A,a) und zeigen die a-Zulässigkeit von Ko: sei also 
x € Ao, d.h. x < A. Dann ist aufgrund der Antitonie p,.(w € Ko) = 
B(n,k,m) > B(n,A,m) > 1-.«. Also ist insgesamt 1—- p.(w £ Ko) = 
Pr(w € Ko) 2 1-a und damit p.(w £ Kı) <a, was die a-Zulässigkeit 
von Ky bedeutet. 


(ii) Nach Konstruktion ist Ko(n,A,a) = a...b, wobei a und b minimal 
sind, mit den Eigenschaften @/2 < B(n,A,a) respektive 1- a/2 < 
B(n,A,b). Wir verabreden nun die Abkürzung Ko := Ko(n,A,«a) und 
zeigen die a-Zulässigkeit von Ko: Wegen Ayo = {A } ist nur zu zeigen 
pı(w & Ko) < 0. Wir unterscheiden nun zwei Fälle: Ist a = 0, dann ist 
Ko=0...b und damit pı(w € Ko) = B(n,X,b) > 1- a/2. Daher gilt 
pw EZ Ko) =1-pilwe Ko) <1-(1-a/2) = a/2< oe, was zu 
zeigen war. Sei nun also a > 1, dann ist offenbar 


pılw € Ko) z Prlw<b)-pılw<a) = B(n,A,b) - B(n,\,a-1) 


Nach Konstruktion ist 1— @a/2< B(n,X,b) und da a minimal gewählt 
wurde, ist auch B(n,a,a — 1) < a/2. Wir finden also pı(w € Ko) 2 
(1-a/2)-a/2=1-a und damit pı(w&E Ko) =1-pılwe Ko)<a, 
so dass auch dieser Fall abgeschlossen wurde. 














Die wohl bekannteste Gruppe von Hypothesenstests sind die Chi-Quadrat- 
Tests. Und dafür gibt es einen guten Grund: Nach den zentralen Grenz- 
wertsatz ist die unabhängige Wiederholung eines Zufallsexperiments immer 
näherungsweise normalverteilt. Und die Varianz von n normalverteilten Zu- 
fallsvariablen ist x„n_ı-verteilt. Die Varianz misst aber die Wahrscheinlichkeit 
der Abweichung und damit ist kann man Tests konzipieren, die zu vorgeleg- 
tem Sicherheitsniveau a prüfen, ob die Annahme Ho verworfen werden muss. 
Wir stellen einen ersten solchen Test vor: 


Test 15.9: x?-Test auf Verteilung 

Wir betrachten eine Zufallsvariable X : R — 5 zwischen zwei beliebigen 
Wahrscheinlichkeitsräumen (R, U r,p) und (9, %s,q). Wir nehmen weiter an, 
dass wir 1< ne N Stichproben x = (zı,...,&n) € $” von X gemacht 
haben. Ist p bekannt, dann ist auch die Wahrscheinlichkeitsverteilung 


PX: ”s — [0,1] :C > p(XeC) 


bekannt. Oftmals ist p aber unbekannt und man hat nur eine Vermutung 
darüber - z.B: man vermutet, dass p gleichverteilt oder normalverteilt ist. 
Die Frage ist also, ob die Vermutung von der Stichprobe gestützt wird, oder 
ob es zu unwahrscheinlich ist, dass das vermutete p zu dieser Stichprobe x 
geführt hätte. 
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In dieser Allgemeinheit kann man p mit einer endlichen Stichprobe natür- 
lich nicht überprüfen. Wir müssen uns also ebenfalls mit einem endlichen 5 
begnügen - d.h. wir wählen eine Partition C4,..., Cm € Ns, sprich es gilt 


S=|JG und Yi,jel...m: GonG=8 
1 


Wir haben also eine Vermutung über die Wahrscheinlichkeit p; € [0,1] mit 
der das Ereignis X € C; eintritt und wollen diese testen. Offenbar muss 
pı +:''+Ppm >= 1 gelten, da die ©; ja eine Partition von S sind. Bezeichnen 
wir die tatsächliche Zahl der Stichproben, die in der Klasse C; gelegen haben 


n; := #{!kel...n|x, € C;} 


dann lässt sich die zu testende Hypothese p(X € C;) = pi wegen des Gesetzes 
der großen Zahlen also äquivalent formulieren, in die Form 
Ho : Viel...m : im<- = p 
nZooN 
Es ist also e; = np; die (unter der Annahme von Ho) erwartete Anzahl von 
Stichproben in der Klasse C;. Dazu betrachten wir die relative, quadratische 
Abweichung der tatsächlichen, von der erwarteten Häufigkeit, in Formeln 


1m EV) 
A = oo 


Dabei ist die Zufallsvariable A annähernd x?-verteilt, mit m — 1 Freiheits- 
graden. Als Faustregel sagt man, die Annäherung ist gut genug, wenn gilt 


viıel..m: ee; >55 


Für m = 2 sollte sogar e; > 10 sein. Der Test funktioniert nun also wie 
folgt: Man legt ein Sicherheitsniveau a € [0,1] fest und führt die Stichprobe 
= (21,...,%n) € S” aus. Dabei ist die Anzahl n so zu wählen, dass gilt 


Viel..m: eg; =n:p(XEeC,)) >25 


Wir nehmen die Hypothese (die Verteilung p auf der Partition Ch,..., Cm) 
an, wenn A < xm-ı(l - a) ist. Dabei ist xm-ı die Verteilungsfunktion 
der x?-Verteilung, wie in (13.9) beschrieben. Ist hingegen A > xm-ı(l — 
a), dann ist die beobachtete Abweichung A (unter der Annahme von p) 
unwahrscheinlicher, als &, so dass p verworfen werden muss. 
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Beispiel 15.10: 

In einem Krankenhaus werden n = 400 Kinder geboren - 194 Mädchen und 
206 Jungen. Wir fragen uns also: Liegt die Wahrscheinlichkeit, dass ein Mäd- 
chen geboren wird tatsächlich bei 50%? Wir modellieren also: R=1...400 
die geborenen Kinder, $ = B die möglichen Geschlechter, wobei wir 0 := 
Mädchen und 1 := Junge setzten. X :1...400 > B ist also die Zufallsvaria- 
ble, die jedem Kind sein Geschlecht zuordnet. Die Klassierung ist natürlich 
Co := { Mädchen } und C}?{ Junge }. Dann lautet die Hypothese 


Ho : p(X = Mädchen) = 50% 


Als Sicherheitsniveau wählen wir & = 95%. Dann berechnen wir zunächst 
die Erwartungswerte eg =n:p(X = 0) = 200 und eı =n:p(X = 0) = 200. 
Die Stichprobe ergab no = 194 und nı = 206 und damit berechnen wir 

(no zZ eo)” (nı = eı)* 16 36 1 


A Fi 1 — 1 — 
eo eı 200 200 4 








Auf der anderen Seite berechnen wir (z.B. mit LibreOffice, dort kann xy(x) 
mit der Funktion CHIINV(x, f) berechnet werden) xı(5%) = 3.8415 > A. 
Und damit wird Ho durch die Stichprobe nicht verworfen. 

In der Tat ist es aber so, dass auf 100 Mädchen etwa 105 Jungen geboren 
werden, die Wahrscheinlichkeiten also nicht gleich zu sein scheinen. Eine 
so geringe Abweichung findet man aber erst bei sehr großen Stichproben: 
Behalten wir Ho bei, nehmen aber eine Stichprobe mit ng = 100/205: n und 
nı = 105/205: n an, dann müsste zur Widerlegung von Ho gelten 


(no - 0.5n)?  (nı - 0.5n)? 1 
ala) Da 1618 





Wenn uns wieder ein Sicherheitsniveau von 95% genügt, dann müssten wir al- 
so mindestens eine Stichprobe von 6216 Kindern Umfang durchführen. Wer- 
den dabei höchstens 3032 Mädchen geboren, verwerfen wir die Annahme An. 


Test 15.11: Fisher’s G-Test auf Verteilung 

Eine Alternative zum Chi-Quadrat-Test ist der G-Test von Fisher. Wir ver- 
wenden alle Bezeichnungen x, C;, n;, e; usw. wie eben im Chi-Quadrat Test 
auf Verteilung eingeführt. Ist A; (füröi € 1... m) die Wahrscheinlichkeit, dass 
X in C; liegt und A = (A1,...,Am) € Am, dann ist 


L(}) := TI 
i=1 


die Wahrscheinlichkeit genau nı mal X € C\ zu ziehen und genau na mal 
X € Ca zu ziehen, usw. so, wie es in x geschah. Der MLE-Schätzer von A; 


zu diesen Häufigkeiten ist e = (&1,..-,Em) = MLE(X, x) € Am wobei 
NG 
& 
n 
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[Eigentlich müsste man eine Multinomialverteilung betrachten, aber der Bi- 
nomialkoeffizient ändert als Vorfaktor nichts an der Position des Schätzers 
el. Wir vermuten die Wahrscheinlichkeitsverteilung p = (pı,..:,Pm) € Am 
für X auf der Partition (C;). Die Nullhypothese Ho lautet also wieder: 
pi = p(X € C;) für alle i € 1...m. Um diese zu testen betrachten wir 
diesmal aber folgendes Maß für die Abweichung 


G = (7) — 2% (*) 


Da e die Likelihood-Funktion Z maximiert gilt L(p) < L(e) und damit G > 0. 
Wieder folgt G für n — oo einer Chi-Quadrat-Verteilung zum — 1 Freiheits- 
graden, denn es gilt 


Ge A+0((m-e)”) 


Der Test läuft also wie folgt ab: Wir wählen wieder ein Sicherheitsniveau a 
und entscheiden: Ist G < xm-ı(1-a), dann akzeptieren wir Ho, ist hingegen 
G > xm-ı(l - a), dann müssen wir Ho verwerfen. 


Beweis: 


(i) Zunächst einmal ist e = MLE(X,r), d.h. e ist die Stelle, an der L 
maximal wird. Da der Logarithmus streng monoton steigend ist genügt 
es das Maximum von (A) aufzusuchen. 


A) := n(LA)) = D,niln(A,) 
= 


Da A € Am hängt ( nur von m—1 Variablen ab, z.B. ist Aı = 1-2 - 
+ — Am. Damit ( ein Maximum hat, muss der Gradient von V{ =0 
verschwinden. Für j € 2... m ist aber 


1 1 


0 = IR) = Meer 





Das bedeutet n;/A; = nı/Aı und diese Gleichung besteht nun für alle 
jel...m. Daraus wird aber n; = nı -A;/Aı und summieren wir diese 
Gleichungen ergibt sich 


m 
= N n;= 
Jl 


m 


„N m = cr 
== A Aı sei ? Aı 
Daraus folgt Aı = nı/n und analog finden wir A; = n;/n für alle 
jel...m. Also ist e ein kritischer Punkt von L. Da L aber am Rand 
von A, verschwindet, positiv ist und dies der einizige kritische Punkt 
von L ist, muss es sich um ein Maximum handeln. 
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(ii) Des Weiteren gilt die Gleichheit in der Definition von G, denn es ist 
ni/e; = (n&;)/(npi) = &i/pi und damit 


(Ze) = WIE)" ) = Zmm(&) = Zmm(®) 


(ii) Zuletzt setzten wir noch 6; := n; — e; und rechnen G = A + O(6?) 
nach. Zunächst einmal ist 


I (m - 6)? Er 


Es ist aber auch klar, dass ö4+-- -+dm = n—n = ist. Und bekanntlich 
gilt n(1+t) =t-1?/2+O(t?). Damit erhalten wir dann insgesamt 


m n; 
Din (=) 
= 2) (ei +8) In (1+ ) 

T T e; 


T 


G 





i=1 
= = 61% 3 
IN 22 93,2, 2:00) 
i=1 i=1 il’ ii 
m 2 
eu i 3\ —_ 3 
= 2 00) A+0(8}) 














Beim Chi-Quadrat-Test haben wir also eine Vermutung über die Wahrschein- 
lichkeiten p(X € C;) und will prüfen, ob diese Vermutung stimmt. Einen 
etwas anderen Ansatz verfolgt der Kolmogorov-Smirnov-Test den wir nur 
vorstellen. Hierbei haben wir eine Vermutung über die Verteilungsfunktion 
von X, die wir testen wollen. Dieser Test umgeht damit das Problem der 
Wahl der Klassen C;, funktioniert aber nur bei reellen Zufallsvariablen. Für 
alle Beweise der Aussagen siehe die Open Courseware Notes des MIT zur 
Statistik, Section 13. 
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Test 15.12: Kolmogorov-Smirnov-Test auf Verteilung 

Sei (S,2,p) ein Wahrscheinlichkeitsraum und X : $ — Reine reelle Zufalls- 
variable darauf. Die tatsächliche, unbekannte Verteilungsfunktion von X sei 
Fx also Fx:R- [0,1]:t> p(X <t). Wir vermuten, dass X die stetige 
Verteilungsfunktion Fo : R — [0,1] hat, d.h. unsere Hypothese lautet 


Ho : Fx = FH 


Um Ho zu testen führen wir eine Stichprobe x = (tı1,...,2n) € R” aus und 
wir bezeichnen die empirische Verteilungsfunktion von x mit 


1 
Belt) „Fik el...n|zx<t} 
Nach Glienko-Cantelli gilt (Fx) > Fx p-fast sicher gleichmäßig, wenn die 
Anzahl der Stichproben n — oo wächst. Unter der Hypothese Ho gilt also 
(Fr) > Fo und daher definieren wir die Abweichung 


7A —— vn: IFx — Follo 


Sortieren wir x aufsteigend, d.h. xı < x2 < --: < x, dann folgt aus der 
Tatsache, dass F, stückweise konstant und Fo stetig ist, dass 


AM = maxf|F,(&r) - Fol)||ke1...n} 
AP = max{ |Fy(&x-1) - Fole)| |k € 2...n} 
|| Fz — Follo = max{ An A Fo(zı) } 


Ist F’x stetig, dann ist die Verteilungsfunktion von || Fy, — Fx ||» unabhängig 
von F'x. Und damit lässt sich dann zeigen, dass 


‚im p(An <4) == He) 
wobei H(t) die Kolmogorov-Verteilung ist (diese lässt sich zwar nicht mit 


LibreOÖffice berechnen, aber es gibt die Möglichkeit dazu auf auf der Seite 
www.math.ucla.edu/ tom/distributions/Kolmogorov.html) 


Hit) = 142) (-1)re#t 
k=1 


Der Test funktioniert nun also wie folgt: Wähle ein Sicherheitsniveau a@ und c 
so, dass H(c) = 1-a, also c= H"!(1-a). Ist nun A„ < c, dann akzeptieren 
wir Ho, ist hingegen A, > c, dann muss Ho verworfen werden. Für n < 35 
liegen die Werte von c auch tabelliert vor, für n > 35 kann man folgende 


Näherung verwenden: 
( ) 
[ <In | < 
2 [6 
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Test 15.13: 8 Kolmogorov-Smirnov-Test auf gleiche Verteilung 
Dieser Test ähnelt dem voran gegangen Test auf Verteilung. Diesmal lautet 
die Fragestellung aber: Haben die Zufallsvariablen X und Y dieselbe Vertei- 
lung? ohne dabei festlegen zu wollen, welche Verteilung dies sein sollte. Wir 
befinden uns also in folgender Situation: 


Sei ($,%,p) ein Wahrscheinlichkeitsraum und X, Y : $ — R zwei reelle 
Zufallsvariable darauf. Die tatsächlichen, unbekannten Verteilungsfunktio- 
nen von seien Fx von X bzw. Fy von Y. Wir führen nun zwei Stichproben 
2 = (21,...,2m) € R” und y= (yı,...,9n) € R” aus. Mit F, bzw. F, be- 
zeichnen wir wieder die empirischen Verteilungsfunktionen zu diesen Stich- 
proben. Dann berechnen wir 


mn 
Ann = Er 





Als Faustregel gilt: Der Test liefert gute Ergebnisse, wenn mn > A(m + n) 
ist, also z.B. für m > 8 und n > 8. Ansonsten ist alles wie zuvor: Wir legen 
ein Sicherheitsniveau a fest und berechnen c = H"!(1-.a). Ist Amn < c, 
dann können wir Fx = Fy annehmen, ist Amn > c, dann müssen wir die 
Hypothese Fx = Fy verwerfen. 
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Kapitel 16 


Unabhängigkeitstests 


Wir haben für zwei Ereignisse A, B< $ definiert, dass A und B unabhängig 
sind, wenn p{ANB) = p(A)-p(B). Wir betrachten nun zwei endliche Familien 
von Ereignissen Aı,..., Am < S und Bı,...,Bn < S$. Dann ist die Frage, 
ob jedes einzelne A; von jedem einzelnen B,; unabhängig ist - wir haben 
das bereits als Unabhängigkeit der Familien A := { Aı,..., Am } und B := 
{ Bı,..., Bn } kennen gelernt. 

Ein einfaches Beispiel ist die Gegenüberstellung von Ausbildung und Ar- 
beitsverhältnis, wie sie zu Beginn von Kapitel 5 gegeben wurde. Hier sind 
diese beiden Eigenschaften offensichtlich nicht unabhängig. Wir wollen diesen 
häufig vorkommenden Spezialfall der Definition (12.1) von zwei Zufallsvaria- 
blen mit endlichem Wertebereich, nun eingehender untersuchen: 


Bemerkung 16.1: 

Sei ($,%,p) ein Wahrscheinlichkeitsraum und 1< m, ne IN gegeben. Sind 
nuınX:$9—1...mundY:S$S—1...n zwei Zufallsvariablen mit endlichem 
Wertebereich. Dann sind X und Y nach (12.1) unabhängig, falls für alle 
vel...mundallejel...n gilt 








p(X =iundY =) pP(X =i):p(Y =) 


Bezeichnen wir A; := X!(i) und B; := Y’!(j) € , dann ist diese Glei- 
chung anderes als eine suggestive Schreibweise für p(A;NB;) = p(A;)p(B;). 
Und bezeichnen wir weiterhin u; := p(X =i) = p(A;) und v; := p(Y = j) = 
p(B;) und pi; := p(A;N B;), dann lässt sich die Unabhängigkeit von X und 
Y abermals umschreiben, zu 


Viel...mVjel...n : Pi; = W'dj 


In diesem Abschnitt widmen wir uns der Frage: Was tun, wir mit realen 
Daten, wenn p(A;N B;) und p(A;) : p(B;) nur näherungsweise überein stim- 
men? Zunächst gehen wir auf die beste Schätzung der Wahrscheinlichkeiten 
p(A;) und p(B;) ein und danach auf Hypothesentests mit der Frage nach der 
Unabhängigkeit. 
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Lemma 16.2: 

Sind1l<m,ne N und ist H = (hi) € matmxn(R) eine m x n-Matrix 
(wobei R ein beliebiger Integritätsbereich sein kann, etwa R= R) so dass 
die Summe aller Einträge der Matrix gleich 1 ist 


Dann bezeichnen wir hr}; := hıjt+t:"+hmjund hi + :=hiıt +hin ER. 
Und damit sind dann die folgenden vier Aussagen äquivalent 


(a) rank(H) =1 
(b) Viel...mundVjel...n gilt hi; =hi,+ hr; 


(c) es gibt Tupel u = (u1,u2,...,Um) € R" und v = (v1,02,...,%m) € R” 
so dass Vviel...mundVkel...ngilt hr = w vr 


(d) Vv,kel...mundVj,lel...n gilt hie hr; = ha; hr 


Der Nutzen des Lemmas liegt auf der Hand: Um zu überprüfen, ob eine 
Kontingenztabelle (h;,;) die Kombination zweier unabhängiger Eigenschaften 
X und Y ist, genügt es zu testen, ob hye hr; = ij hr,e für alle Indices 
i,k €el...m und j,l € 1...n ist. Wenn ja, dann sind die h;,; einfach die 
unabhängige Kombination (also das Produkt) der Randhäufigkeiten hı; = 
Rt + hm; undh,+ =hiıt + hin- 

Das Problem ist nur: Bei realen Daten werden die h;,; immer leichte 
Abweichungen von den zugrunde liegende Wahrscheinlichkeiten u; = p(A;) 
bzw. v; = p(B;) haben. In diesem Fall müssen wir also einen möglichst guten 
Schätzer für u; und v; finden. Es ist anzunehmen, dass der beste Schätzer 
u; = hi,+ und v; = hy; sein sollte. In der Tat gilt der folgende Satz: 


Satz 16.3: 
Zu jedem Paar (i,5j) mitiel...nundjel...nsein,; € N die Anzahl 
der Vorkommnisse des zugehörigen Merkmalspaares unter den insgesamt 


m n 
N = > > Ni,j 
i=1 je 


Merkmalsträgern. D.h. h;; = ni;/N ist die relative Häufigkeit des Merk- 
malspaares zu (i,j). Dann definieren wir die Likelihood Funktion L für 
u€e Am undve A, durch 


m n m n 
2 Mi, — Ni,+ N+,j 
Zw) := Je” = (Ile) (Ile 
Ä ı 


i=1 


Dabei ist wieder n4; = nı 5 +" +Nm,y und + = niı+ "+ ni,n. Dann ist 
der MLE-Schätzer (u,v) von L (also das Maximum von L) gegeben, durch 
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Beweis: 
Wegen der strengen Monotonie des Logarithmus genügt es die Funktion 
/(u,v) = In L(u,v) zu maximieren. Diese ist gegeben, durch 


Ku;b). = > 1,4 nl) + > n+,;1n(v;) 
i=1 j=1 


1 10) 1 
er) u, und EZ See 
Führen wir zwei Lagrange-Multiplikatoren wı und ua ein um die Nebenbe- 
dingungen ur +... Um = 1l und v1 +...%n = 1 zu berücksichtigen, so finden 
wir das Gleichungssystem 





1 

= en 

k1 du; (u v) NG, + u; 
Ku,v) - 

= —Ll(u,v) = nyj— 
ee I; + Yj 


Zu fixiertem r € 1...m also nr +/üur = vı = m,+/u; und damit n;,+ = 
N,,+ U;/Uu,. Durch Summation wird daraus 


m 


m m 
U; 1: 1 
N = ) Ni+ = ) Nr + — = Mn ) Wu = Nn4— 
i=1 Ar Ur 27 Ur 


i=1 


und damit u, = n,+/N. Genauso findet man v; = nı,/N zu fixiertem 
se 1...n. Da dies der einzige kritische Punkt von Z ist, und L am Rand 
verschwindet, muss es sich dabei um ein Maximum handeln. 














Die obige Likelihood Funktion L(u, v) ist (bis auf einen Vorfaktor) die Ein- 
trittswahrscheinlichkeit, dass unter den N Versuchen n; + mal das Ereignis 
A; und n},; mal das Ereignis B; eintritt - unter der Annahme, dass die A; 
und B,; unabhängig sind. In so fern macht es Sinn diese Wahrscheinlichkeit 
zu maximieren. Zur Regression haben wir aber einen anderen Ansatz ver- 
wendet: Wir können auch den quadratischen Abstand der Schätzer u; - vj 
von den realen Häufigkeiten h;,; minimieren. Es stellt sich heraus, dass die 
Randhäufigkeiten, dafür nicht die besten Schätzer darstellen. Statt dessen 
ergibt sich ein Eigenwertproblem, wie der folgende Satz zeigt: 


Satz 16.4: 
Sei H = (h;,;) € matın(R) eine Kontingenztabelle, wobei l<m,ne N 
beliebig sind. D.h. für alleve1...mund jel...n gelte0O<h,; <1lund 
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Wir nehmen an H ist die unabhängige Kombination zweier Merkmale, d.h. wir 
suchen u = (u1,U2,...,Um) € R”" und v = (v1, v2,...,Un) € R” so dass für 
alle ze 1...m und je 1...n gilt h,; = uw;. Dazu betrachten wir die 
quadratische Abweichung von der unabhängigen Kombination 


aa,0) = I zu) 
i=1 je 


Diese hat ein (nicht notwendig eindeutiges) globales Minimum (u, v) e R"r, 
das wir als MLE-Schätzer bezeichnen. Dabei sind folgende Aussagen für 
u #0 äquivalent 


(a) (u, v) ist ein kritischer Punkt von q 
(b) Hv = ||v|? u und H*u = ||u]? v 
(c) w ist ein Eigenvektor von HH* und v = ||u||"? H*u 


Und ist u # 0 ein Eigenvektor von HH* zum Eigenwert A und ist v definiert, 
durch v =||u||"? H*u, dann gilt für die quadratische Abweichung 


alu,v) = HI -A 


Und damit erhalten wir unmittelbar eine Lösungsstrategie zur Bestimmung 
des MLE-Schätzers der unabhängigen Kombinationen u und v in FH: 


1. Berechne die Eigenwerte von HH* 
2. Wähle den größten Eigenwert A von HH* 
3. Berechne einen Eigenvektor e von HH* zum Eigenwert A 
4. setze u := llell] e 
5. setze v := ||u||? H*u 
Beispiel 16.5: 
Das folgende Beispiel zeigt, dass die Randhäufigkeiten nicht der beste Schät- 


zer für die unabhängige Kombination einer Kontingenztabelle sind. Und die 
Abweichung tritt bereits bei einer Vierfeldertafel auf: 





0.1 0.2] 0.3 
03 0.4107 
04 0.6 | 1.0 


Die Randhäufigkeiten sind also he,+ = (0.3,0.7) und hı.. = (0.4,0.6) und 
man berechnet q(he+,h+,.) = 0.0016 (auf 4 Stellen gerundet). Betrachten 
wir also die positive, symmetrische Matrix HH* 


„_ fpı 02\ (0.1 03\ _ (0.05 0.11 
NZ = ) S w z (en En 
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Diese hat die Eigenwerte Spec(H H*) = { 0.013, 0.2987 } (wieder auf 4 Stel- 
len gerundet). Der größere der beiden Werte ist A = 0.2987, zu diesem be- 
rechnen wir einen Eigenvektor e = (0.11,0.2487). Aus diesem bilden wir 
u = (0.3067,0.6933) und verarbeiten diesen weiter zu v = (0.4153, 0.5892). 
Man beachte, das ||w||ı= 1 ist (nach Konstruktion), aber ||v||ı> 1. Das ist 
der verbleibende Haken an diesem Ansatz. Man sieht aber 


q(u,v) = 0.0013 < 0.0016 = g(he+,hı.) 


Und auch wenn wir w :=||v ||]! v setzen (so dass sich v wieder als Wahr- 
scheinlichkeitsverteilung interpretieren lässt), so ist q(u,w) < q(he,+,h+.)- 
Die Randhäufigkeiten liefern also auch dann nicht die beste Schätzung für 
hi; & uv;j, wenn wir zusätzlich u € Am und v € A, fordern. 


Beweis: 

Wir bezeichnen r? :=||u |]? + ||v|]?, den (euklidschen) Abstand von (u, v) 
von 0 zum Quadrat. Ferner seien u := u/r und v := v/r. Dann kann man 
q(u, v) umschreiben, zu 








m n 
galuv) = Y,) (his; - wm)” 
i=1jel 
m n 
= DI (hi; + wog — Ah zunvı) 
i=1jel 
m n 
= A]? +), wvlwv; — 2hi,;) 
i=1j=l 
= 1a? au (mr - 22) 
i=1jel 


Nach Konstruktion sind u; und v; € [0,1]. Damit ist die verbleibende Dop- 
pelsumme (als stetige Funktion auf einem Kompaktum) beschränkt. Und für 
r — oo konvergiert sie stets gegen || u ||? || v ||?. Also besteht für r — o die 
asymptotische Gleichheit 


ara,rv) = RN +rR elle? 


Ist u = 0 oder v = 0, dann folgt q(u,v) =|| H |. Und andernfalls wächst 
q(u,v) für r — oo aber unbeschränkt. Insbesondere konvergiert q(u,v) für 
| u || ® und || v |— © niemals gegen 0. Nach unten ist aber durch 
q(u,v) > 0 beschränkt. Insgesamt muss q ein globales Minimum annehmen. 


Wir zeigen nun die Äquivalenz der Aussagen, beginnend mit (a) > (b): 
Ein kritischer Punkt liegt vor, wenn der Gradient Vg(u, v) = 0 verschwindet, 
d.h. wenn alle partiellen Ableitungen an dieser Stelle O sind. Diese lauten 


Ve dee). Y (2urv7 — 2hr,;v;) 


3-1 
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m 


0 = 9,,glu,v) = > (2uzvs — 2hr,sui) 
i=1 


Die erste Gleichung lässt sich aber leicht äquivalent umformen, zur r-ten 
Komponente der Vektorgleichung Hv =||v||? u. Die zweite Gleichung liefert 
auf dieselbe Weise die s-te Komponente von H*u =||u||? v. 


n n 
lvl? ur = > urv; = > hn.%; = [Hv), 
j-l a1 


m m 
kei eN nmel, 
ı=I ı=1 


Für (b) — (e) ist mur zu zeigen, dass u ein Eigenvektor von HH* ist. 
Dies ist aber denkbar einfach - wir rechnen auch gleich nach, dass v ein 
Eigenvektor zum selben Eigenwert A :=||u|]?]|v|]? ist: 


HH*u = H |ul?v = |ull? Hv = |ull?llol? u = Au 


H*Hv = H* |vl? u = |vl? H*%u = |wll ul? v = Av 


Wir schließen nun den Kreis mit (cl) — (b): Sei also HH*u = Au und 
v definiert, durch v =|| u ||"? H*u. Wir zeigen zunächst, dass dann auch 
H*Hv = \v ein Eigenvektor (oder v = 0) sein muss: 














1 1 
H’Hv = H'H— Hu = —H'HH*u 
I Im 
1 1 
= —zH'iu = A — Hu = Av 
Il Im 
Damit wird aber auch ||u|]?||v||?= A automatisch erfüllt, denn man sieht 
ul]? = all? . 7 |H*ul? 
Im 
1 * * 
1 * 
1 
ae 
= Arch ee 
Nach Annahme haben wir H*u = ||u||? v bereits, es bleibt nur noch die 
zweite Behauptun v = ||v||” u zu zeigen: 
ite Behauptung Hv = ||v|]? ig 
1 1 1 
Hv = H-—,H"u = — ,HH*u = —zAu = Iv|? « 
«| «| Im 
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Es fehlt nur noch die Identität für q(u,v) wenn u ein Eigenvektor zum Ei- 
genwert A und v wie eben ist. Doch diese lässt sich direkt nachrechnen: 


iu). a I, (ru) 


i=1j=1 
m n 
= > >» (hi; > 2: 5; + u;v;) 
i=1j=1 
m n m n m 
- PER Yun Zeh 
i=1j=1 i=1 jel i=1 jel 
n m 
= |IA]I3 -2) 9; 2 husu+ |ulPIlvl? 
jel iel 
= |IH|]2 —2(v | H*ru) + A 
= 1H3 -2 |ull? (Hu | H*u) HA 
= |IA|]2 -2 |u||? (HH*u|u) + 
= |3|3 -2 u] Au|u) + 
= |IA]2 -2 ul? w|w)+A 
= |A]2 -A+ıX = ||A]2 —ı 


























Test 16.6: x?-Test auf Unabhängigkeit 

Wir betrachten zwei Zufallsvariablen X: R—SundY: RT auf 
demselben (wenn auch beliebigem) Wahrscheinlichkeitsraum (R,Yr,p). Die 
Frage ist nun, ob X und Y stochastisch unabhängig sind. Natürlich lässt 
sich das ohne weiteres nicht mit Sicherheit sagen, aber wir können wieder 
einen Hypothesentest machen. Es sei also eine Stichprobe (2; | y)€E SxT 
vorgelegt, wobei k € 1...n und 1< ne N. Zudem wählen wir endliche 
Partitionen von $ und T', diese seien 


Ss t 
S = U bzw. T = UD; 
i= 3-1 


und wir bezeichnen die tatsächliche Häufigkeit der Stichprobe in der Klasse 
GC; x D; mit 


ni = #lkel..n|veCGundyeD;} 
und die relative Häufigkeit, mit p;,; := ni, j/n. Wenn X und Y unabhängig 


wären, dann müsste n,;; ungefähr das Produkt der Randhäufigkeiten sein. 
Wir erwarten für n;,; also in etwa den Wert 


t Ss 
Min _ 1 „ „ 

ei; 7 n = 2 Ni,v Nu, 
v—L u=l 
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Genau genommen führen wir nun also einen Test für die folgende Hypothese 
durch: Für alleze1...s und alle je 1...t sind die Ereignisse X € C; und 
Y e D; stochastisch unabhängig. 

Dazu betrachten wir wieder die Pearson-Statistik der relativen quadratischen 
Abweichung der tatsächlichen von den erwarteten Häufigkeiten, in Formeln 


t 
A: Sy (ni; 5)” 
ei, 


i=1 je 


Dabei ist die Zufallsvariable A wieder annähernd x?-verteilt, diesmal jedoch 
mit f:= (s-1)(t -1) Freiheitsgraden. Als Faustregel sagt man, die Annä- 
herung ist gut genug, wenn gilt 


Ve I else 


Der Test funktioniert nun also wie folgt: Man legt ein Sicherheitsniveau a € 
[0,1] fest und führt die Stichprobe (z1,Y1),.-- , (Nn,Yn) € $S x T aus. Dabei 
ist die Anzahl n so zu wählen, dass gilt 


Vviel..sVjel..tin-pXeG)-pYeD,)>5 


Wir nehmen die Hypothese der Unabhängigkeit von X und Y an, wenn 
A<xy(1-a) ist. Dabei ist xy die Verteilungsfunktion der x?-Verteilung zu 
f := (s - D(t - 1) Freiheitsgraden, wie in (13.9) beschrieben. Ist hingegen 
A>xy(1-a), dann ist die beobachtete Abweichung A (unter der Annahme 
der Unabhängigkeit) unwahrscheinlicher, als «, so dass X und Y als anhän- 
gig angesehen werden müssen. 


Beispiel 16.7: Vier-Felder-Tafel 

Im einfachsten Fall wurden die Ereignisräume 5 und 7’ in jeweils zwei Klassen 
unterteilt: $ = Cı U Ca und T = Dı U Da. Dann können die tatsächlichen 
Häufigkeiten der Stichprobe in einer 2 x 2-Matrix dargestellt werden: 


|\YeDı YeD 
XeC a b 
XeEeÜs c d 


dabei ist dann natürlich n =a+b+c+.d die Anzahl der Stichproben ins- 
gesamt. Und die bei Unabhängigkeit von X und Y erwarteten Häufigkeiten 
sind gegeben, durch 











ne (a+b)(a+e) 
= (arb)(b+d) 
Be 
ne (a+c)(c+d) 
u (b+d)le+d) 
war 


_. Kar) (be) 


ea Ep €c Ed 
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Dabei ist beispielsweise (a— e„)”/ea = (a? —2aeu+e2)/ea = a?/ea 2a + Ca 
und damit A = (a?/ea +5 / + c/ec+d2/es) -Im+le ta +tec+ ea). 
Wegen (a+b)(a+c)+(a+b)(b+d)+(a+c)(c+d)+(b+d)(c+d) = n? wird 
daraus A = (a?/eu+b?/ey+c?/ec+d?/ea) —n. Und eine explizite Rechnung 
liefert daraus dann die einfachere Formel 





(ad — be)? 
" Tatb)late)(b+d)(c+d) 





A = 


In diesem Fall haben wir f = (2-1): (2-1) = 1 Freiheitsgrad, legen wir 
das Sicherheitsviveau a fest, dann muss die Hypothese der Unabhängigkeit 
von X und Y (bei dieser Klassierung) verworfen werden, wenn 


(ad — bc)? 
(a+b)(a+c)(b+d)(c+d) 





xıl-o) <A=n- 


Test 16.8: Exakter Fisher Test: 
Der Chi-Quadrat-Test auf Unabhängigkeit verwendet die Ähnlichkeit der 
Verteilung der Test-Statistik zu einer Chi-Quadrat-Verteilung, die gegeben 
ist, solange die Bedingungen e; ; > 5 gegeben sind. Selbst dann ist der Test 
aber nicht exakt, a keine obere Schranke der Irrtumswahrscheinlichkeit son- 
dern nur eine Abschätzung. Abhilfe schafft der folgende Test: 

Wie im Chi-Quadrat-Test auf Unabhängigkeit haben wir X: R— S und 
Y:R-T und Partitionen (C;) von 5 bzw. (D,) von T. Die Kontingenzta- 
belle habe wieder die Einträge n;,; wobeisel...rundjel...s 








YeDı ... YeD; ... YeD, 
XeC, Ni, a ae N1,s u 
XeEeG; BE N; se Ui 
XeEeÜ, Ny1 er Ba Ny,s Ur 
v Vs Us rn 








Wir haben die Randhäufigkeiten also mit u; = n;, + bzw. v; = n ; bezeichnet 
und setzten u = (U1,...,Um) und v = (V1,...,%n). Wir betrachten nun 
also den Zustandsraum K aller Kontingenztafeln dieser Größe und sortieren 
diejenigen aus, die dieselben Randhäufigkeiten haben: 


KE TA € mat, (Z) | Qi; > 0} 
Kur = TA ek | + = U, A+j = v;} 


Die Idee ist nun Folgende: Wir nehmen an Ho, die Zufallsvariablen X und Y 
seien unabhängig voneinander und fixieren die Randwerte u und v. Dann ist 
die Wahrscheinlichkeit die Matrix A = (a; ;) € K, zu beobachten gegeben, 
durch (vgl. mathworld.wolfram.com/FishersExactTest.html) 


IE-ı W! - I;-ı vj! 
n! - TE Il; is! 





p(A) = 
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Wir fragen uns also, ob die beobachtete Matrix N = (n;,;) € K.,. besonders 
ungewöhnlich ist, oder nicht. D.h. wir summieren die Wahrscheinlichkeiten 
aller Matrizen A mit (denselben Randwerten), die höchstens so wahrschein- 
lich sind wie N 


ie p(A) für p(A) < p(N) 
en 0 für p(A) > p(N) 
Ist & unsere vorgelegtes Sicherheitsniveau und ist ö > «a, dann gibt es keinen 


Grund an Ho zu zweifeln. Ist hingegen ö < a, dann müssen wir Ho verwerfen, 
X und Y sind abhängig. 


Bemerkung 16.9: 
Speziell im Fallr = s = 2 einer 2x 2 Kontingenztafel lässt sich der Raum 
Ku, der Matrizen leicht durchnummerieren, es genügt: 


aıı € max{(,u —va}...min{uı,vı } 


a2 = U-a1 
@1ı = vı-aı 
a2 = WwW-412 


zu betrachten, das sind 1+ min{ u1,u2,vı,va } Matritzen. Darunter ist na- 
türlich auch die Matrix N der Beobachtungswerte. Zu diesen berechnet man 
jeweils p(A) und summiert alle p(A) für die p(A) < p(N) ist. Die dabei ent- 
stehende Summe ist 6. 
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Kapitel 17 


Integrationstheorie 


In diesem Kapitel wollen wir ein wenig den Begriff eines Integrals betrachten, 
der ja notwendig wird, um den Begriff der Summe zu verallgemeinern, auf 
den Fall dass die Indexmenge der Summanden kontinuierlich (überabzählbar) 
ist. Dazu betrachten wir zunächst den quick-and-dirty Ansatz von Riemann, 
den wohl bekanntesten Ansatz vermöge Regelfunktionen und schließlich den 
raffiniertesten Ansatz von Lebesgue. 


Definition 17.1: 


(i) Sind a = (a1,...,ag) und b = (b1,}ba) € R@ vorgelegte d-Tupel, mit 
a<b (d.h. für alles e1...d gilt a; < b;). Dann definieren wir den 
(kompakten) Quader [a,b] < R® mit den Eckpunkten a und b als 


8,6] = [2=(e1,...,2) ER! |Viel...dim<m<h} 


Und die Menge aller kompakten Quader in R@ bezeichnen wir mit 
9° := { [a,b] |a< be R}. Das Volumen eines Quaders ist das Pro- 
dukt seiner Kantenlängen, d.h. wir definieren weiter 


ua.) := IC - 0) 


(ii) Ist nun A C R@ eine beliebige Teilmenge von R@, dann definieren wir 
deren charakteristische Funktion als 


1 fürze A 


. Rd f 
WiRoR:00l, fürs A 


(ii) Wir nennen eine Funktion t:R? — R eine Treppenfunktion, falls es 
endlich viele Quader Q(1),...,Q(m) € Q4 und Zahlen aı,...,am ER 
gibt, so dass sich £ schreiben lässt, als 


m 
t = ) arlan) 
k=1 
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(vi 


— 


— 


— 


Die Menge aller Treppenfunktionen wird also erzeugt als der von den 
charakteristischen Funktionen von Quadern aufgespannte Vektorraum. 
Wir bezeichnen sie mit 


TRIER) := Ihf1g lage or) 


Und ist te T(R@,R) eine Treppenfunktion, dann gibt es eine Darstel- 
lung t = %, axlo(r) wie oben, so dass für alle j, k € 1...mgilt ar #0 
und 5#k — u(Q(G)NQlk)) = 0. Und für diese definieren wir dann 
deren Integral durch 


ft = Dana) © R 
k=1 


Riemann-Integral: Sind nun f und g zwei beliebige Funktionen, dann 
schreiben wir f < g falls für alle x € R@ gilt f(x) < g(x). Und für 
f:R@- R definieren wir die folgenden beiden Grenzwerte 


| 
* 
Fa‘ 
— 
Dei 
|| 


wtf | LE TIRUR) mitt < 7 | 


En 
Fr 
— 
u Z 
j) 


ine ft | LE TUR) mit f<t | 


Wir nennen f Riemann-integrierbar, falls I*(f) = I.(f) ist. In die- 
sem Fall definieren wir dann das Riemann-Integral, durch 


} Ferne) 


Regel-Integral: Ist f : R! — R eine beliebige Funktionen, dann 
setzen wir || f ||oo := sup{ |f(&)| | x € R@}. Und wir sagen die Folge 
(fn) konvergiert gleichmäßig gegen f, falls gilt 


(n)f > „lim I f-fn Ip = 0 
Wir nennen f nun (Regel-)integrierbar, falls es eine Folge (t„) < 
T(R@,R) von Treppenfunktionen gibt, die gleichmäßig (t„) — f gegen 


f konvergiert. Dann ist der Grenzwert unabhängig von der speziellen 
Folge und wir nennen ihn das (Regel-)Integral von f: 


IE = lm [tn 
N—OO 


Bemerkung 17.2: 

Wir haben also zwei Integralbegriffe eingeführt, für Funktionen f:R? > R. 
Üblich ist aber auch folgende Schreibweise, in der die Variable der Funktion 
betont wird 


[road = [i 
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Von diesen beiden Begriffen ist das Regel-Integral die zumeist verwendete 
Definition. Dieses Konzept wird beispielsweise verfolgt, in [Fischer, Kaul, 
Mathematik für Physiker, Band 1, Kapitel 23]. Ist f aber nur auf einer 
Teilmenge f:D— Rmit D C R“ definiert, dann setzen wir f auf ganz R? 


durch 0 fort: a: 
4 nu Fe ürxeD 
NT { 0 fürzgD 


Dann heißt f integrierbar, wenn ihre Fortsetzung f integrierbar ist und in 
diesem Fall kann auch das Integral von f definiert werden, als 


a 


Definition 17.3: 

Sei (S, A, u) ein Raum mit Inhalt. Eine Funktion e: $ — R heißt einfach, 
wenn sie eine endliche Bildmenge e($) < R besitzt und zu jedem ae R 
ist die Faser e”!(a) € A messbar. Die Menge aller einfachen Funktionen 
bezeichnen wir, mit 


E(S,R) := fee M(S,R) | #e(S) <a} 


In diesem Fall können wir das Integral einer einfachen Funktione:S —>R 
erklären, als die folgende (endliche) Summe: 


[ran = Da ne"a)) 


aee(S) 


Beispiel 17.4: 

Ist $ = R@ der d-dimensionale Raum und ist A = B(R) die Borel-o-Algebra 
auf R@ unter dem Lebesgue-Maß 1 = X“, dann sind Treppenfunktionen ins- 
besondere auch einfache Funktionen: 


T(RE,R) < E(R“,R) 


und das Integral einer Treppenfunktion t stimmt mit dem Integral als einfa- 
che Funktion überein. Anschaulich gesprochen kann man sich die Situation 
wie folgt vorstellen: Bei Treppenfunktionen wurde der Definitionsbereich R 
in Quader zerlegt. Treppenfunktionen sind also schön blockweise. Bei einfa- 
chen Funktionen wurde der Wertebereich R zerlegt - die Fasern müssen keine 
Quader sein, sondern können eine kompliziertere Gestalt haben. Indem man 
die Komplikation aber in zwei Teile zerlegt (erst das Maß auf der Definiti- 
onsmenge, dann das Integral) kann man diesen Integralbegriff aber besser 
kontrollieren und er wird bessere Eigenschaften haben. 
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Bemerkung 17.5: 

Im Grunde könnte man noch ein wenig allgemeiner starten: Für den Be- 
griff einer einfachen Funktion und deren Integral muss das Tripel ($,.A, u) 
lediglich die folgenden drei Eigenschaften erfüllen: 


(1) $ #0 ist eine nicht-leere Menge. 


(2) A < P(S$) ist eine Familie von Teilmengen von $ für die gilt P € A 
und sind A, Be A, dann sind auch AUBund ANBEA. 


(3) u ist eine Abbildung der Form u: A— R, wobei R ein kommutativer 
Ring ist. Dabei ist (PB) = 0 und für alle A, Be Amit ANB=®silt 
n(AUB) = u(A)+ uB). 


In diesem Fall können wir einfache Funktionen f : $ — R mit Werten in 
einem kommutativen Ring R betrachten und auch das Integral wird einen 
Wert in R annehmen. In dieser Form wird beispielsweise das motivische In- 
tegral auf Varietäten gebildet. 


Definition 17.6: 

Sei ($, A, u) ein Maßraum, dann nennen wir eine Abbildung w der Form 
w:S— RT Ufoo} eine numerische Funktion auf $. Ist w sogar /A-messbar 
(d.h. für alle a, be Rt U{oo} gilt w”!([a,b]) € A), dann nennen wir w 
eine Belegungsfunktion von $. Die Menge aller Belegungsfunktionen von 
5 bezeichnen wir mit 


Se {w:S>R’U{o}|VO<a<b<oo:w([a,b])e A} 


Ist nun w € D(5) eine Belegungsfunktion, dann gibt es nach [Bauer, Maß- 
theorie, 11.6] eine Folge (en) < E(S,R) einfacher Funktionen, so dass gilt 


(1) Die e„ sind positiv und bilden eine isoton steigende Folge, d.h. es gilt: 


VE 





(2) Die e„ konvergieren punktweise von unten gegen w, oder anders gesagt: 
w ist das Supremum der e„. D.h. für alle x € $ gilt die Gleichung 


wer) = supf&n(z)|neN} 


Und in diesem Fall definieren wir das Oberintegral (nach [Bauer, Maßtheo- 
rie, 11.2] ist dies unabhängig von der speziell gewählten Folge) von w 


Po) := sup [ondu men) € Rufoo} 


Ist nun f: $ — Reine beliebige messbare Funktion auf 5, dann sind nach 
[Bauer, Maßtheorie, 9.6] auch deren Positiv- und Negativteil messbar 


' le) für f(x) >20 
psaRtion| 0 für fir) <o 
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0 für f(x) >20 
-f(2z) für f(x) <o0 
Und wir nennen f (Lebesgue-)integrierbar, wenn f messbar ist, und die 


Oberintegrale der Positiv- und Negativteile endlich sind, d.h. falls I*(f+) und 
IT*(f_) eR sind. In diesem Fall definieren wir das (Lebesgue-)Integral 


SH Rt:an| 


[ran = ri -ru9 
Die Menge der Lebesgue-integierbaren Funktionen auf $ bezeichnen wir mit 


LS,R) = {LFEMSR) IH, FUI-)ER} 


Bemerkung 17.7: 

Auch in diesem Fall müssen wir die Notation noch ein wenig erweitern: Gele- 
gentlich ist es notwendig, das Maß zu fixieren, auf das sich die Integrierbarkeit 
bezieht. In diesem Fall schreiben wir auch I, (w) anstelle I*(w) und £,($, R,) 
anstelle L(S,R). 

Ist nun Be A eine messbare Menge dann ist die Restriktion von A auf B 
gerade ANB={AeA|AC B}. Und wir erhalten wieder ein Maß up auf 
B durch Restriktion von u auf ANB, d.h. ug : ANB- [0, ©] : Am (A). 
Damit ist auch das Integral über B definiert. Offensichtlich lässt sich dieses 
Integral aber auch über ganz $ auswerten: Ist f: B— R, dann setzen wir 
f außerhalb von B durch 0 auf $ fort: 


4 u fe) fürzeB 
Fels { 0 fürzeB 


Dann ist f € L(B,R), wenn ihre Fortsetzung f € £($, R) ist und in diesem 
Fall stimmen dann auch die Integrale über B bzw. $ überein 


raw = ra 


Da keine Verwechslung möglich ist, werden wir an dieser Stelle den Index B 
beim restringierten Maß up weglassen. D.h. wir bezeichnen ug wieder mit 
1, obwohl das formal nicht ganz korrekt ist. 

Es ist oftmals auch von Nutzen die Variable zu betonen, über die Inte- 
griert wird. In diesem Fall schreiben wir dann auch 


/ fo)dute) = [Fan 
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Satz 17.8: [Bauer, MundlI-Theorie, 12.3, 12.2, 13.2] 
Sei (9, A, u) ein Maßraum und bezeichne £(S,R) die Menge der Lebesgue- 
integrierbaren Funktionen auf $. Dann gelten die folgenden Aussagen 


(i) £(S,R) ist ein R-Vektorraum und das Lebesgue-Integral ist eine iso- 
tone, lineare Abbildung von £(S,R) nach R, für die gilt: 


/ Ifldu < MB) fe 
B 


(ü) Ist f:9 — R eine beliebige Funktion, dann sind die folgenden fünf 
Aussagen äquivalent: 


(a) f € £L(S,R) ist integrierbar 

(b) fr und f- € L(S,R*) sind integrierbar 

(c) es gibt positive, integrierbare Funktionen u und v € L(S,R*) so 
dass f sich darstellen lässt, als: f = u-v 

(d) If| € £($, R*) ist integrierbar 

(e) es gibt eine positive, integrierbare Funktion p € L(S,R*) so dass 
f sich wie folgt abschätzen lässt: |f| < p 

(ii) Ist pe L(S, R*) eine positive, integrierbare Funktion, dann verschwin- 
det das Integral über f genau dann, wenn sie fast überall 0 ist: 


[an = ee ui) 


Satz 17.9: [Bauer, MundlI-Theorie, 16.4] 

Sei f:: [a,b] — R eine Borel-messbare Funktion, auf dem kompakten Inter- 
vall [a,b] <C R. Ist f Riemann-integrierbar (zum Beispiel f stetig), dann ist 
f auch Lebesgue-integrierbar und die beiden Integrale haben den gleichen 
Wert. Insbesondere gilt für das Lebesgue-Integral wieder der Fundamental- 
satz der Analysis: ist f : [a,b] > R stetig und ist F : [a,b] — R eine 
Stammfunktion von f (d.h. für alea <x<bgilt F’(x) = f(x)) dann gilt 


b 
/ f(a)dA!(a) = Fb) - F(a) 


Definition 17.10: 

Sei (5, A, u) ein Maßraum und 1<peR fixiert. Dann nennen wir eine 
Funktion f : $S — R p-fach integrierbar, falls |f|? integrierbar ist. Die 
Menge all dieser Funktionen bezeichnen wir mit 


L’(S,R) = {FEM(S,R)| |/|P € £(S,R)} 
Insbesondere ist also L!(S,R) = L(S,R). Bemerkung: ist f:S > R 


messbar, dann ist |f|? bereits messbar. Es genügt also die Endlichkeit des 
Integrals zu testen. Ist nun f € £P(S,R), dann definieren wir die p-Norm 


von f durch ' 
IA = (irran)” 
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Wir nennen f:S$ — R fast überall beschränkt, falls es eine ZahllmeR 
gibt, so dass f außerhalb einer Nullmenge durch m beschränkt ist: 


u(tzeSs|lf@)l>m}) = 0 


Die Menge aller fast überall beschränkten Funktionen f :$ — R bezeichnen 
wir mit LX(S,R). Und auf dieser Menge definieren wir 


If» = nfimeR | uhres|lf@l>myp)=0} 


Satz 17.11: [Bauer, MundlI-Theorie, 14.1 bis 14.7] 

Sei (5, A, a) ein Maßraum und pe [1,0], dann ist die Menge £LP(S,R) der 
p-fach integrierbaren Funktionen ein Untervektorraum von F(S,R). Und ist 
u(5) < oo endlich und sind 1<p<q<@, dann gilt sogar 


LUS,R) < LP(S,R) C L(S,R) 


Sei u wieder beliebig und p € [1,00], dann ist || e ||, eine Halbnorm auf 
LP(S,R), d.h. für alle ae R und alle Funktionen f, ge LP(S,R) gilt 


lafllo = al Ifllo 
If+solo < flo + Iallo 


Vorsicht: es handelt sich dabei aber nicht um Normen, denn aus || f||p= 0 folgt 
nicht f = 0, es folgt lediglich, dass {x € S | f(x) #0 } eine u-Nullmenge ist. 
Sind nun p und q e [1,0] so dass 

pp 4 
(wobei z.B. für qg = x noch p = 1 erlaubt ist) und sind f € £P(S,R) 
und g € LI(S,R) p-fach, bzw. g-fach integrierbar, dann ist das Produkt 
fs € £(S, RR) 1-fach integrierbar, denn es gilt die Hölder’sche Ungleichung 


Ifalı < IFllo Tale 


Satz 17.12: [Bauer, MundlI-Theorie, 15.4 und 15.6] 

Sei ($, A, u) ein Maßraum und 1<peR fixiert. Wir betrachten eine Folge 
p-fach integrierbarer Funktionen (fn) < LP(S,R) und zwei einzelne Funk- 
tionen f, 9:S — R. Dann gelten die folgenden beiden Aussagen: 


(i) Ist auch f € LP(S,R) p-fach integrierbar und konvergiert (fn) u-fast 
überall punktweise gegen f (d.h. für K := !xze S$S| („(&)) > f(«) } 
gilt u(S\K) = 0) dann sind die folgenden beiden Aussagen äquivalent 


(a) Die Folge (f„) konvergiert im p-ten Mittel gegen f, d.h. es gilt 


‚im [If = Fall» = 0 
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(b) Die p-Normen der f„ konvergieren gegen die p-Norm von f, d.h. 
Tim [falle = IA 


(i) Satz von der majorisierten Konvergenz: Sei g € LP(S,R*) positiv, 
integrierbar und u-fast überall eine Majorante der fn, d.h. es gelte 


«(s\ Ntzesiinal<ae)) -0 
neN 


Weiterhin sei (fn) -fast überall punktweise konvergent, d.h. für K := 
ze S|(fn(x)) konvergiert } gelte ebenfalls u(S\K) = 0. Dann be- 
zeichnen wir die punktweise Grenzfunktion der f„ mit 


= imysofn(t) fürze K 
IT { 0 für &K 


Dann ist wiederum f € LP(S,R) p-fach integrierbar und (f„) konver- 
giert sogar im p-ten Mittel gegen f, d.h. es gilt auch 


‚im If allo= 0 


Satz 17.13: [Bauer, MundlI-Theorie, 17.1 bis 17.10] 
(i) Sei (9, A, u) ein Maßraum und w € (5) eine Belegungsfunktion auf 
S$. Dann erhalten wir ein weiteres Maß wu auf S, durch: 


wu : A>[0,o] : A | win 


Und ist f : $ — R eine messbare Funktion, dann ist f genau dann 
(wu)-integrierbar, wenn das Produkt fw w-integrierbar ist. In diesem 
Fall gilt die Gleichheit der Integrale: 


[ram = [rwan 


(ii) Satz von Radon-Nikodym: Ist (5, A, u) ein Maßraum mit o-endlichem 
Maß u und ist v : A— [0,0] ein weiteres Maß auf $, dann sind die 
filgenden Aussagen äquivalent: 


(a) v besitzt eine Dichte bezüglich u - d.h. es gibt eine Belegungs- 
funktion w € w($) so dass v = wu ist. 


(b) Jede u-Nullmenge ist auch eine u-Nullmenge. D.h. für alle messba- 
ren Mengen N € A gilt die Implikation: 


UNI =EU. = HIN 


In diesem Fall schreiben wir auch v < u. Ist nun v ein endliches Maß, 
dann ist dazu weiterhin äquivalent: 
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(c) v ist stetig bezüglich u, d.h. es gibt Zahlen ö und e > 0, so dass 
für alle messbaren Mengen A E A gilt: 


wWA)<6 = v(A)<e 


Satz 17.14: [Bauer, MundlI-Theorie, 19.1 bis 19.4] 


(i) Sei (5, A, u) ein Maßraum und in (T,B) sei T eine nicht-leere Menge 


— 


und B eine o-Algebra auf T. Schließlich sei 9 : $ — T eine messbare 
Abbildung. Damit induziert x das Bildmaß gu : B — [0, x] auf T, 
vermöge ps u(B) := u(p'(B)). Ist nun w € OT) eine Belegungsfunk- 
tion auf T', dann gilt 


Ile) = Iuwp) 


wobei wo : S — [0,00] : x > w(p(x)) wieder die Verkettung bezeich- 
net. Und ist 9: T > Reine (p,w)-integrierbare Funktion, dann ist go 
auch w-integrierbar, d.h. es gilt die Implikation 


gELlpulT,R) — gpeLu($S,R) 


[Ist & bijektiv und auch 21: T — $ messbar, dann gilt auch die 
umgekehrte Implikationsrichtung]. In diesem Fall besteht dann auch 


die Gleichheit der Integrale 


[sten = Joan 


Transformationssatz: Seien U und V <© R zwei offene Teilmengen des 
R@ und sei ®: U — V ein C!-Diffeomorphismus (d.h. ® ist bijektiv 
und sowohl ® als auch ®”! sind stetig differenzierbar). Wir fixieren 
das Lebesgue-Maß A@ auch R4, dann gilt 


geL(V,R) > gdeL(U,R) 


Und in diesem Fall besteht die Gleichheit der folgenden Integrale (dabei 
bezeichnet d® die Jacobi-Matrix von ®) 


[oa — 99: Idercasyı an 
V U 


Satz 17.15: [Bauer, MundlI-Theorie, 23.2 und 23.7] 

Sind (9, A, u) und (T,B,v) zwei o-endliche Maßräume, dann betrachten wir 
den Produktraum (Sx T, A®B, u®v). Sindnun se S,te Tund Pe AB 
fixiert, dann bezeichnen wir: 


P,. >= ftEeT|sHeP} 
P, := {seS|(s,t)eP} 
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Dann sind P, € Bund P; € A messbar und damit sind dann die Abbildun- 
gen $ — [0,0]: s > v(P;) € O(T) und T > [0, ©] :t > u(Pı) € D($S) zwei 
Belegungsfunktionen auf T bzw. auf $. 


Satz von Fubini: Ist nun f € L(S$S x T,R) eine integrierbare Funktion auf 
dem Produktraum $S x T', dann bezeichnen wir weiterhin 


fs : T>R : to f(s,t) 
fi: S>R :sH f(s,t) 


Dann sind fs € M(T,R) und fı € M(S5,R) wiederum messbar und fast 
überall integrierbar. D.h. bezeichnen wir L:= {se S| fs€e L(T,R) } be- 
ziehungsweise M := {teT| fıe £(S,R)}, dann gilt u(S\L) = 0 und 
v(T\M)=0. Und damit gilt dann die Gleichheit der Integrale 


ET Ilre»®o) dy(s) 


= | (| red) ao 


Beispiel 17.16: 

Die Trias aus Transformationssatz, Satz von Fubini und Fundamentalsatz 
der Analysis ist in der Lage die meisten Integrale effektiv zu berechnen. 
Wir wollen hier ein einfaches Beispiel geben, wie diese kombiniert werden 
können: Dazu starten wir mit einer Funktion g: D— R auf der Kreisscheibe 
vom Radius R in der Ebene D := { (x,y) eR?|x°+y?< R?}. Alternativ 
hätten wir die offene Kreisscheibe D° = { (z,y) ER? |@?+y?<R?} zu 
Grunde legen können. Wir können D weitgehend parametrisieren, mit Hilfe 
von 

8: UV: (ra) + (r-cos(a),r-sin(a)) 


Dabei ist U :=]0, R[x]0, 2#| und V := D°\{ (x,0) | x > 0}. Diese Einschrän- 
kung ist notwendig, damit ® bijektiv und damit ein C'-Diffeomorphismus 
wird. Die Jacobi-Matrix von ® ist dann gegeben, durch 


dd(r,a) = es Er 


sin(@) r-cos(a) 
und damit ist det(d®) = r unabhängig von «a. Ist g messbar und fast-überall 


beschränkt, dann ist g integrierbar (da D ein endliches Maß hat), und da 
D\V eine Nullmenge ist, gilt die Gleichheit der Integrale 


[ar = [var 
D V 


Mit Hilfe des Transformationssatzes können wir das Integral über die ge- 
schlitzte Kreisscheibe V aber zurück ziehen, auf das offene Rechteck U 


RZ = 99 dertanııar? 
V U 
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2 Ef %o:raro 


Und da g integrierbar ist erlaubt uns nun der Satz von Fubini das zweidimen- 
sionale Integral sukzessive als zwei eindimensionale Integrale auszuwerten. 
Insgesamt erhalten wir also die Möglichkeit das Integral zu berechnen 


IRZ., = Il resoaa) ar 


Letzteres ist mit dem Fundamentalsatz der Analysis zumeist gut möglich. 
Besonders einfach ist der Fall für g(z,y) = f(x? +?) für eine stetige Funk- 
tion f: [0, R?] > R. Denn in diesem Fall ist g rotationssymmetrisch und es 
gilt gö(r,«a) = f(r?) ist unabhängig von a. Damit reduziert sich das innere 
Integral also auf den Faktor 2. Ist nun F die Stammfunktion von f mit 
F(0) = 0, dann gilt (F(r?))' = 2r - F’(r?) = 2r - f{r?). Und damit können 
wir das obige Integral also explizit angeben zu 


R 
re + ae. = "| 2r - f(r?)dr — nF(R?) 
D 0 
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Kapitel 18 


Open Publication License 


I. CoPYRIGHT 
The copyright to each Open Publication is owned by its author(s) or designee. 


Il. SCOPE OF LICENSE 
The following license terms apply to all Open Publication works, unless otherwise explicitly 
stated in the document. Mere aggregation of Open Publication works or a portion of an 
Open Publication work with other works or programs on the same media shall not cause 
this license to apply to those other works. The aggregate work shall contain a notice 
specifying the inclusion ofthe Open Publication material and appropriate copyright notice. 
Severability: If any part of this license is found to be unenforceable in any jurisdiction, 
the remaining portions of the license remain in force. 
No Warranty: Open Publication works are licensed and provided äs is"without war- 
ranty of any kind, express or implied, including, but not limited to, the implied warranties 


of merchantability and fitness for a particular purpose or a warranty of non-infringement. 


III. REQUIREMENTS ON BOTH UNMODIFIED AND MODIFIED VERSIONS 

Any publication in standard (paper) book form shall require the citation of the original 
publisher and author. The publisher and author’s names shall appear on all outer surfaces 
of the book. On all outer surfaces of the book the original publisher’s name shall be as 


large as the title of the work and cited as possessive with respect to the title. 


IV. REQUIREMENTS ON MODIFIED WORKS 
All modified versions of documents covered by this license, including translations, antho- 


logies, compilations and partial documents, must meet the following requirements: 
e The modified version must be labeled as such. 


e The person making the modifications must be identified and the modifications 
dated. 


e Acknowledgement of the original author and publisher if applicable must be retai- 
ned according to normal academic citation practices. The location of the original 


unmodified document must be identified. 


e The original author’s (or authors’) name(s) may not be used to assert or imply 
endorsement of the resulting document without the original author’s (or authors’) 


permission. 
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V. GOOD-PRACTICE RECOMMENDATIONS 
In addition to the requirements of this license, it is requested from and strongly recom- 


mended of redistributors that: 


e If you are distributing Open Publication works on hardcopy or CD-ROM, you 
provide e-mail notification to the authors of your intent to redistribute at least 
thirty days before your manuscript or media freeze, to give the authors time to 
provide updated documents. This notification should describe modifications, if any, 


made to the document. 


e All substantive modifications (including deletions) be either clearly marked up in 
the document or else described in an attachment to the document. Finally, while it 
is not mandatory under this license, it is considered good form to offer a free copy 
of any hardcopy and CD-ROM expression of an Open Publication-licensed work to 
its author(s). 


VI. LICENSE OPTIONS 
Distribution of the work or derivative of the work for commercial purposes is prohibited, 


unless prior permission is obtained from the copyright holder in written form. 


Für Anmerkungen, Hinweise und Korrekturen bin ich immer dankbar. 
Sie können mich per Mail kontaktieren, oder besuchen Sie meine Homepage: 


abzeidler@gmx.de, bzw. 
https:/ /my.cloudme.com /#zeidlerweb 


Copyright (C) 6. April 2021 
by Andreas Bernhard Zeidler 
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